数据预处理(part3)--缺失值处理和区间化

学习笔记,仅供参考,有错必纠




处理缺失值


在很多时候,某些预测变虽会在一些样本上缺少观测。这些缺失值可能是结构性缺失,如一个男子的后代数目.

了解缺失值发生的原因是很重要的,首先,应该调查数据缺失是否和结果变量有关,这种情形被称为"有信息量的缺失",因为缺失情况本身是结构性的。

缺失数据不应该和删失数据相混淆,对于后者具体的观测依是缺失了,但我们仍知道一些信息,例如,出租碟片公司在建模时如果使用用户持有碟片时长这一变量,如果客户还未归还影碟,那么我们就不知道确切的持有时间,但是我们知道该时间一定要比从该客户租影片到现在的时间长。

与我们建立一些着眼于解释和推断的传统统计模型时,会对删失机制做出一此假设,从而将删失信息列入考虑范围之内。对于预测模型,更常见的是将这些数据当作简单缺失数据看待,或者将删失处的取值当作观测数据。例如,当一个样本超过可检测精度范围时,可以将精度界限视为观测值,也常使用从零到检测精度界限区间的一个随机值作为观测值。

缺失值更经常和相应的预测变量有关而不是和样本相关,如此,缺失数据更可能集中在某些预测子集中,而不是随机出现在所有样品之中。有此时候,某预测变量含有的缺失数据比例可能高到足以将该预测变量从模型中删除。

还有一些情况是缺失值存在于某些特定的样本之中。如果数据量大

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

GoatGui

谢谢支持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值