数据挖掘-处理缺失值

最新推荐文章于 2022-06-06 18:00:31 发布

pusu.io

最新推荐文章于 2022-06-06 18:00:31 发布

阅读量2.3k

点赞数 1

分类专栏：数据挖掘文章标签：数据挖掘数据预测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pudongqi/article/details/78740089

版权

数据挖掘中，缺失值处理至关重要，因为它会影响模型的准确性和预测效果。缺失值产生的原因包括数据提取和采集时的错误。处理方法包括删除、均值/中位数/众数估计以及预测模型如KNN。选择合适的方法取决于缺失值的类型和比例。

摘要由CSDN通过智能技术生成

为什么需要处理缺失值呢？

训练数据集中缺少的数据可以减少模型的拟合，或者可能导致模型偏差，因为没有正确地分析变量的行为和关系，可能导致错误的预测或分类。

注意上图中缺失值：在左侧的情况下，没有处理缺失值，男性打板球的机会高于女性。另一方面，如果看看第二个表，其中显示了处理缺失值后的数据（基于性别），我们可以看到女性与男性相比有较高的打板球的机会。

为什么会有缺失值呢？

前面说明了在数据集中处理缺失值的重要性，现在来确定发生这些缺失值的原因，主要有以下两个阶段：

数据提取（Data Extraction）

提取过程可能有问题，在这种情况下，应该使用数据监护检查数据的准确性，一些散列程序也可以用来确保数据提取的正确性，比较容易纠正（数据提取主要在NLP或者图像邻域，我现在理解不到位，后面补充）。

数据采集（Data collection）

数据采集时发生的错误，很难纠正，主要分为以下四种：

Missing completely at random
即所有观

最低0.47元/天解锁文章

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。