数据分析实战之数据清洗

在数据分析过程中不论是时间还是功夫,数据清洗大概占到了80%。

一、数据质量的准则:“完全合一”

1)完整性:单条字段是否存在空值,统计的字段是否完善

2)全面性:观察某一列的全部数值,根据常识判断该列是否有问题,比如:数据定义、单位标识、数值本身。

3)合法性:数据的类型、内容、大小的合法性

4)唯一性:数据是否存在重复记录,行、列的数据都需要是唯一的

二、数据清洗

导入数据:

import pandas as pd

df = pd.read_excel(r'C:\Users\hzjy\Desktop\data.xlsx')

1、完整性:

1)空行:数据中有一组空行,除了index,其他都是NAN,使用dropna函数删除空行

df.dropna(how = 'all',inplace=True)  #删除全空的行

也可以用drop删除

df.drop(index = 8,inplace=True)

2)缺失值:缺失值

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值