5.2.3 填充缺失值

最新推荐文章于 2024-03-30 14:55:16 发布

万俟傲霜

最新推荐文章于 2024-03-30 14:55:16 发布

阅读量1.4k

点赞数

分类专栏：数据清洗文章标签： etl

本文链接：https://blog.csdn.net/qq_53646158/article/details/127835228

版权

数据清洗专栏收录该内容

23 篇文章

订阅专栏

数据挖掘中处理大型数据库的缺失值是常见挑战。本文介绍了四种填充缺失值的方法：均值填充（针对定距型和非定距型数据）、热卡填充（利用相似对象的值填充）、回归填充（通过相关变量进行回归预测）和多重填充（通过多次估算减少不确定性）。以社会人员调查数据为例，展示了如何应用这些方法，包括过滤、替换、合并和选择字段等步骤，最终完成缺失值填充。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据挖掘中面对的通常都是大型的数据库，它的属性有几十个甚至几百个，因为其中某个属性值的缺失而放弃其他大量的属性值，这种删除是对信息极大的浪费，所以产生了插补缺失值的思想与方法。常见的填充缺失值的方法具体如下。

1，均值填充

数据的属性分为定距型和非定距型。如果缺失值是定距型的,就以该属性存在值的平均值插补缺失的值;如果缺失值足非疋距型的,就根据统计学中的众数原理,用该属性的众数(即出现频率最高的值)补齐缺失的值。

2，热卡填充

对于一个包含缺失值的对象﹐热卡填充方法会在完整数据集中找到一个与它最相似的对象的值进行填充。对于不同的问题，可能会选用不同的标准对相似对象进行判定,从概念上理解该方法很简单,利用数据间的关系进行缺失值评估。热卡填充方法的缺点在于难以定义相似标准，人为主观因素较多。

3，回归填充

将缺失值变量(自身字段)作为因变量,相关变量(其他字段)作为自变量进行回归拟合，用预测值作为填补值需要注意的是自变量的数据尽量是完整的。

与前述几种插补方法比较,回归填充方法的优势是可充分利用数据库中的信息,弊端主要有两点第一.该方法是无偏估计,但容易忽视随机误差、低估标准差和其他未知性质的测量值,而且这一问题会随着缺失信息的增多变得更加严重;第二,研究者必须假设存在缺失值所在的变量与其他变量存在线性关系,大多数情况下这种关系是不存在的。

4，多重填充

多重估算是由Rubin等人于1987年建立起的一种数据扩充和统计分析方法,作为简单估算的改进产物。首先,多重估算技术用一系列可能的值替换每个缺失值,以反映被替换的缺失数据的不确定性。然后,用标准的统计分析过程对多次替换后产生的若干个数据集进行分析。最后,把来自各个数据集的统计结果进行综合,得到总体参数的估计值。

由于多重估算技术并不是用单一的值替换缺失值,而是试图产生缺失值的一个随机样本,这种方法可以反映出由于数据缺失而导致的不确定性,产生更加有效的统计推断。

现对一份社会人员调查信息的数据文件people_survey.txt进行缺失值填充。