缺省值清洗

缺省值是数据中最常见的一个问题,处理缺省值有很多方式,主要包括以下四个步骤进行缺省值处理:

  1. 确定缺省值范围
  2. 去除不需要的字段
  3. 填充缺省值内容
  4. 重新获取数据
    注意:最重要的是缺省值内容填充。

在进行确定缺省值范围的时候,对每个字段都计算其缺失比例,然后按照缺失比例和字段重要性分别指定不同的策略:

  1. 重要性高,缺失率低:通过计算进行填充,通过经验或业务知识估计
  2. 重要性高,缺失率高:尝试从其他渠道取数补全,使用其他字段通过计算获取,去除字段,并在结果中标明
  3. 重要性低,缺失值低:不做处理或简单填充
  4. 重要性低,缺失率高:去除该字段

在进行去除不需要的字段的时候,需要注意的是:删除操作最好不要直接操作与原始数据上,最好的是抽取部分数据进行删除字段后的模型构建,查看模型效果,如果效果不错,那么再到全量数据上进行,删除字段操作。总而言之,该过程简单但是必须慎用,不过一般效果不错,删除一些丢失率高以及重要性低的数据可以降低模型的训练复杂度,同时又不会降低模型的效果。

填充缺省值内容是一个比较重要的过程,也是我们常用的一种缺省值解决方案,一般采用下面几种方法进行数据的填充:

  1. 以业务知识或经验推测填充缺省值
  2. 以同一字段指标的计算结果(均值、中位数、众数等)填充缺省值
  3. 以不同字段指标的计算结果来推测性的填充缺省值,比如通过身份证号码计算年龄、通过收货地址来推测家庭住址、通过访问的IP地址来推测家庭/公司/学校的家庭住址等等

如果某些指标非常重要,但是缺失率又比较高,而且通过其他字段没法比较精准的计算出指标值的情况下,那么就需要和数据产生方(业务人员、数据收集人员等)沟通协商,是否可以通过其他渠道获取相关的数据,也就是进行重新获取数据的操作。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值