数据清洗是数据分析中很重要的一步,好比蔬菜水果要洗过之后再吃,不然容易拉肚子;
本文目的是持续搜集总结python对各种数据进行清洗的方法,之后遇到忘记的在这里Ctrl+F就找得到;
文中有提供简单的案例,看到的同学可以复制黏贴操作一下;
数据清洗
数值类
1缺失值
1.1缺失值的类型
NaN – not a number – 对于数来说,非数字
None – 对于object来说,没东西
NaT – not a time --对于时间来说,非时间
test11 = pd.DataFrame({'num':[1,2,np.nan,4],
'obj':['a',None,'c','d'],
'time':pd.to_datetime(['2022-01-01','2022-01-02','2022-01-03',np.nan])})
1.2缺失值的探索分析
#isnull(),探索上述缺失值类型,返回bool型
test11.isnull()
#对布尔型的dataframe进行求和聚合查看数量
test11.isnull().sum