现实应用中,经常会遇到属性值“缺失”(missing)现象
只使用没有缺失值的样本/属性 ?
会造成数据的极大浪费
一、在逻辑回归等需要计算综合值时,缺失值需要处理(分箱时用特殊值替换,然后单独分一箱)
在使用scikit-learn中缺失值需要填充处理。
二、XGboost,LightGBM工具库内部很完善,对缺失值已经做过相应处理。
三、在决策树中,如果使用带缺失值得样例,需解决几个问题:
1.如何进行划分属性的选择?
2.给定划分属性,若样本在属性上的值缺失,如何进行划分
基本思路:样本赋权,权重划分
四、SVM对缺失值很敏感,所以要先填充缺失;对异常值不敏感,只关注支持向量。
五、缺失值填充
1. 描述性统计
数值型变量
分类型变量
2.填补缺失
除了fillna(), 直接均值填充外,还有新的思路
考虑性别因素,分别用男女乘客各自年龄的中位数来填补
同时考虑性别和舱位因素