《1》自己显示对缺失值进行百分比处理,看看每个表中的特征的缺失值的情况
自定义函数的方法:way1
def missing_data(data):
total = data.isnull().sum().sort_values(ascending = False)
percent = (data.isnull().sum()/data.isnull().count()*100).sort_values(ascending = False)
return pd.concat([total, percent], axis=1, keys=['Total', 'Percent'])
自己定义的方法2:
check_null =previous_application.isnull().sum(axis=0).sort_values(ascending=False)/float(len(previous_application)) #查看缺失值比例
print(check_null[check_null > 0.2])
以上两个都是自定义的方法。
下面有可视化的方法去找去缺失值,弊端自己要去数行和运行速度慢,有点就是看来比较高大上的,如果觉得这个实在不好看,可以将以上的百分的那个东西再做一个扇形图之类。
对于缺失值的处理分别三种情况:
(1)删除记录,比较暴力的手段
(2)数据的查补的方法:1.以平均值/中位数/众数插值
2.以固定的值,特征本身自有的属性
3.最近临插值法
4.回归方法
5.拉格朗日插值法
6.牛顿的插值法
7.随机森林
(3)不处理