pandas数据分析打卡学习之数据的清洗

导入了数据,并对数据做完初步分析之后,我们知道数据导入之后按照DataFrame这个数据结构进行存储。知道了DataFrame的一些基础操作之后,再来练习一下DataFrame一些更高级的选择操作。

清洗数据,也就是处理重复的或者空的数据,还要对字符型之类的数据进行转换。而处理数据当然要先选择待处理的数据。先来看一下DataFrame的选择机制。

dataframe类应该是对于[]进行了多次重载,如果[]内填的对象不同,程序也会智能的识别语义进行选择。具体选择方法有以下几种。

首先就是使用列名列表来进行选择。

还可以使用行号进行选择。只不过需要使用iloc函数。这个之前的练习中练习过,所以不必多说。

接下来来看最重要的选择方式,也就是条件选择。

df后面的中括号经过了重载,不仅可以接受列表做参数,还可以接受一个布尔Series作为参数。当接受Series作为参数时,当然就会选择Series中值为True的对象。

df['Age']这里就是对于DataFrame做了一个初步的筛选,然后,对于DataFrame里面的每个元素,使用isnull或者是大于小于之类的运算符就可以返回一个Series类型,传入df[]中即可实现筛选。

处理空数据还有两种系统内置的方法,即fillna和dropna。fillna为把空数据改为指定的数值,而dropna为暂时移除空数据(即返回没有空数据的df)。

 最后,使用drop_dumplicates()函数可以移除重复数据。

然后再来看数据的整理。就是几个重要的函数。

cut函数可以对数据进行分段

value_count函数可以数出每一种值的个数。

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值