在数据挖掘以及机器学习中,拿到的数据,经常是某些记录的某些字段是缺失的,面对这种情况,可以有以下几种处理方法:
1.直接drop这条记录
2.缺失值用众数填补
3.缺失值用中位数填补
4.缺失值用rand(mean-std,mean+std)随机数填补
5.通过其他完整feature,建立model来预测缺失值
6.存在缺失值的数据少的时候,通过其他的feature,人为判断其值
7.对于缺失值,填充一个数字或字母表示Nan
在数据挖掘以及机器学习中,拿到的数据,经常是某些记录的某些字段是缺失的,面对这种情况,可以有以下几种处理方法:
1.直接drop这条记录
2.缺失值用众数填补
3.缺失值用中位数填补
4.缺失值用rand(mean-std,mean+std)随机数填补
5.通过其他完整feature,建立model来预测缺失值
6.存在缺失值的数据少的时候,通过其他的feature,人为判断其值
7.对于缺失值,填充一个数字或字母表示Nan