在数据分析过程中不论是时间还是功夫,数据清洗大概占到了80%。
一、数据质量的准则:“完全合一”
1)完整性:单条字段是否存在空值,统计的字段是否完善
2)全面性:观察某一列的全部数值,根据常识判断该列是否有问题,比如:数据定义、单位标识、数值本身。
3)合法性:数据的类型、内容、大小的合法性
4)唯一性:数据是否存在重复记录,行、列的数据都需要是唯一的
二、数据清洗
导入数据:
import pandas as pd
df = pd.read_excel(r'C:\Users\hzjy\Desktop\data.xlsx')
1、完整性:
1)空行:数据中有一组空行,除了index,其他都是NAN,使用dropna函数删除空行
df.dropna(how = 'all',inplace=True) #删除全空的行
也可以用drop删除
df.drop(index = 8,inplace=True)
2)缺失值:缺失值