首先,缺失值的处理依据的大原则参考“重要性缺失率矩阵准则”
在本次的某旅游O2O网站酒店订单数据分析项目中,80%的字段有不同程度的数据缺失,缺失最多的字段缺失率达到了87%
采用的缺失处理思路如下:
1.业务理解上有显著相关性的字段同时缺失,以合理的数值填充,如历史订单类以0填充,1年内时间间隔以366填充
2.业务理解上有逻辑相关性的字段互相补充,如近1年客户价值与客户价值相互补充
3.与用户访问有关的时间窗口统计信息,用均值填充,如用户24小时浏览最多酒店的平均评分以均值填充
4.与用户画像有关的指标信息,用中位数填充,如用户星级偏好以中位数填充
5.缺失率过高的字段,备注说明后去除,如上文提到的缺失率87%的字段直接去除
6.以现有的非空行,经过归一化处理后,考察各个连续型自变量对因变量的重要性(采用Pearson系数),去除重要性不足且缺失率高的字段
7.经过6步后,缺失率全部下降到10%以下,过滤掉含有缺失值的行
最后就得到没有缺失值的干净数据啦。