Python数据分析步骤案例(二)

做完数据提取和问题提出之后就要进行数据整理了,在本次数据整理的数据评估的工作主要做了数据的行列数,缺失值和数据重复的检查。在数据清洗方面删除了问题无关的数据列,添加解决问题所需要的新的数据列,缺失数据的处理以及重复数据处理。

就此次实验做出总结,此次都是以名为df的数据集为例进行操作语句的示例:

1)查看数据集的行数和列数

df.shape

结果中,第一个数字代表数据集的行数,第二个是列数。

2)检查缺失值

df.info()

info是information的缩写,在notebook中运行代码结果:

RangeIndex的行数为703500,小于这个数表示数据存在缺失值。

3)处理数据缺失

此次实验采用的是删除缺失值:

df.dropna(inplace=True)

dropna为删除缺失的行,inplace=True表示直接在原数据上删除确实行。

4)检查数据重复

对于比较小的数据集,使用duplicated检查各行是否重复:

df.duplicated()

 结果中False是首次的行,True不是首次出现的行,表示重复。

对于大的数据集,使用duplic

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值