数据挖掘-处理缺失值

数据挖掘中,缺失值处理至关重要,因为它会影响模型的准确性和预测效果。缺失值产生的原因包括数据提取和采集时的错误。处理方法包括删除、均值/中位数/众数估计以及预测模型如KNN。选择合适的方法取决于缺失值的类型和比例。
摘要由CSDN通过智能技术生成

为什么需要处理缺失值呢?

训练数据集中缺少的数据可以减少模型的拟合,或者可能导致模型偏差,因为没有正确地分析变量的行为和关系,可能导致错误的预测或分类。
1212395-f41c0f01e5a2d1fb.png
注意上图中缺失值:在左侧的情况下,没有处理缺失值, 男性打板球的机会高于女性。 另一方面,如果看看第二个表,其中显示了处理缺失值后的数据(基于性别),我们可以看到女性与男性相比有较高的打板球的机会。

为什么会有缺失值呢?

前面说明了在数据集中处理缺失值的重要性, 现在来确定发生这些缺失值的原因,主要有以下两个阶段:

数据提取(Data Extraction)

提取过程可能有问题,在这种情况下,应该使用数据监护检查数据的准确性, 一些散列程序也可以用来确保数据提取的正确性,比较容易纠正(数据提取主要在NLP或者图像邻域,我现在理解不到位,后面补充)。

数据采集(Data collection)

数据采集时发生的错误,很难纠正,主要分为以下四种:

  • Missing completely at random
    即所有观
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值