在数据挖掘路上点点滴滴,遇到的数据清洗的一些常用技巧和方法,记录下来,并持续更新。
1.01读取数据
不要索引,去掉字段前后空格
train=pd.read_csv('train.csv',skipinitialspace=True,index_col=0)
1.02缺失值处理
按列统计缺失值比例,决定去除或者填充
all_missing=all_dummies.isnull().sum() #按列查看缺失值
all_missing_ration=(all_dummies.isnull().sum()/len(all_data))*100#按列查看缺失率
all_missing=all_missing.drop(all_missing[all_missing==0].index).sort_values(ascending=False)[:20]#降序查看前20个
<