【漫话机器学习系列】246.何时有缺失值的样本才可删除？（When Can We Delete Observations With Missing Values ）

IT古董

于 2025-05-08 12:15:12 发布

阅读量529

点赞数 14

分类专栏：漫话机器学习系列专辑文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/IT_ORACLE/article/details/147785341

版权

漫话机器学习系列专辑专栏收录该内容

257 篇文章

订阅专栏

何时可以删除缺失值样本？——详解缺失数据处理策略

在实际的数据分析与机器学习过程中，我们经常会遇到缺失值（Missing Values）。缺失值的存在会影响模型的性能，降低分析的准确性。因此，合理处理缺失值是数据预处理阶段的重要任务之一。

但是，是不是所有缺失值样本都可以直接删除呢？
今天，我们就通过这篇文章详细探讨一下这个问题。

为什么不能随意删除有缺失值的样本？

通常来说，我们并不倾向于随意删除有缺失值的样本。原因在于，缺失值的存在本身可能携带某种潜在的信息。盲目地删除这些样本，很可能会导致数据产生偏差（Bias），进而影响建模结果。

比如，假设一份医疗数据中，病人是否有某种病史的字段出现缺失。如果这种缺失主要出现在某一类人群中，那么直接删除这些样本就会造成对这类人群的系统性忽略，从而使模型产生偏见。

什么时候可以删除缺失值样本？

尽管不能随意删除，但在某些特定情况下，删除缺失值样本是合理且安全的。主要包括以下两种情况：

缺失是随机发生的（Missing Completely At Random, MCAR）
如果样本的缺失是完全随机的，与其他特征或目标变量没有任何关系，那么删除这些样本不会引入系统性偏差。这种情况下，删除缺失样本是可以接受的。
缺失可以通过其他特征体现
如果缺失本身是由某些明确的原因导致的，并且这种原因可以通过其他特征间接反映出来，那么删除这些缺失样本也是可以的。例如，在一份调查问卷中，如果某些问题的缺失是因为受访者选择了“不适用”选项，这种情况下可以在处理时依据其他特征信息来判断，不影响整体数据的完整性。

不能删除的情况：缺失是信息的一种体现

在一些情况下，缺失本身就是一种重要的信息。
例如，在信贷数据集中，如果贷款申请表中没有填写收入信息，可能正是因为申请人收入较低，不愿透露。这种情况下，缺失值就具有很强的指示意义。如果简单删除这些样本，将导致模型失去识别潜在高风险用户的能力。

因此，如果缺失值是有模式的、有意义的，那么不能随意删除。 应该考虑其他处理方式，比如：

添加缺失指示变量（Missing Indicator）
用特定值进行填充（如均值、中位数、众数等）
使用模型进行预测补全（如KNN、回归等）

总结

处理缺失值样本时，需要遵循以下原则：

判断缺失机制：是随机的，还是有模式的？
评估缺失对整体数据的影响：是否会引入偏差？
谨慎处理：不要一刀切地删除所有缺失样本，应根据具体情况决定删除、填充或建模。

一句话总结：

“如果缺失是随机的或者可以在其他特征中体现，那么可以删除；否则，缺失本身是信息的一部分，删除可能带来偏差。”

参考来源

Chris Albon（图源内容）
《统计学习方法》
《Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow》

如果你觉得这篇文章对你有帮助，欢迎点赞、收藏并关注我！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。