【漫话机器学习系列】246.何时有缺失值的样本才可删除?(When Can We Delete Observations With Missing Values )


何时可以删除缺失值样本?——详解缺失数据处理策略

在实际的数据分析与机器学习过程中,我们经常会遇到缺失值(Missing Values)。缺失值的存在会影响模型的性能,降低分析的准确性。因此,合理处理缺失值是数据预处理阶段的重要任务之一。

但是,是不是所有缺失值样本都可以直接删除呢?
今天,我们就通过这篇文章详细探讨一下这个问题。


为什么不能随意删除有缺失值的样本?

通常来说,我们并不倾向于随意删除有缺失值的样本。原因在于,缺失值的存在本身可能携带某种潜在的信息。盲目地删除这些样本,很可能会导致数据产生偏差(Bias),进而影响建模结果。

比如,假设一份医疗数据中,病人是否有某种病史的字段出现缺失。如果这种缺失主要出现在某一类人群中,那么直接删除这些样本就会造成对这类人群的系统性忽略,从而使模型产生偏见。


什么时候可以删除缺失值样本?

尽管不能随意删除,但在某些特定情况下,删除缺失值样本是合理且安全的。主要包括以下两种情况:

  1. 缺失是随机发生的(Missing Completely At Random, MCAR)
    如果样本的缺失是完全随机的,与其他特征或目标变量没有任何关系,那么删除这些样本不会引入系统性偏差。这种情况下,删除缺失样本是可以接受的。

  2. 缺失可以通过其他特征体现
    如果缺失本身是由某些明确的原因导致的,并且这种原因可以通过其他特征间接反映出来,那么删除这些缺失样本也是可以的。例如,在一份调查问卷中,如果某些问题的缺失是因为受访者选择了“不适用”选项,这种情况下可以在处理时依据其他特征信息来判断,不影响整体数据的完整性。


不能删除的情况:缺失是信息的一种体现

在一些情况下,缺失本身就是一种重要的信息
例如,在信贷数据集中,如果贷款申请表中没有填写收入信息,可能正是因为申请人收入较低,不愿透露。这种情况下,缺失值就具有很强的指示意义。如果简单删除这些样本,将导致模型失去识别潜在高风险用户的能力。

因此,如果缺失值是有模式的、有意义的,那么不能随意删除。 应该考虑其他处理方式,比如:

  • 添加缺失指示变量(Missing Indicator)

  • 用特定值进行填充(如均值、中位数、众数等)

  • 使用模型进行预测补全(如KNN、回归等)


总结

处理缺失值样本时,需要遵循以下原则:

  • 判断缺失机制:是随机的,还是有模式的?

  • 评估缺失对整体数据的影响:是否会引入偏差?

  • 谨慎处理:不要一刀切地删除所有缺失样本,应根据具体情况决定删除、填充或建模。

一句话总结:

“如果缺失是随机的或者可以在其他特征中体现,那么可以删除;否则,缺失本身是信息的一部分,删除可能带来偏差。”


参考来源

  • Chris Albon(图源内容)

  • 《统计学习方法》

  • 《Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow》


如果你觉得这篇文章对你有帮助,欢迎点赞、收藏并关注我!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值