用户访问预测的缺失值处理总结

首先,缺失值的处理依据的大原则参考“重要性缺失率矩阵准则”

数据清洗的一些梳理

在本次的某旅游O2O网站酒店订单数据分析项目中,80%的字段有不同程度的数据缺失,缺失最多的字段缺失率达到了87%

采用的缺失处理思路如下:

1.业务理解上有显著相关性的字段同时缺失,以合理的数值填充,如历史订单类以0填充,1年内时间间隔以366填充

2.业务理解上有逻辑相关性的字段互相补充,如近1年客户价值与客户价值相互补充

3.与用户访问有关的时间窗口统计信息,用均值填充,如用户24小时浏览最多酒店的平均评分以均值填充

4.与用户画像有关的指标信息,用中位数填充,如用户星级偏好以中位数填充

5.缺失率过高的字段,备注说明后去除,如上文提到的缺失率87%的字段直接去除

6.以现有的非空行,经过归一化处理后,考察各个连续型自变量对因变量的重要性(采用Pearson系数),去除重要性不足且缺失率高的字段

7.经过6步后,缺失率全部下降到10%以下,过滤掉含有缺失值的行

最后就得到没有缺失值的干净数据啦。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值