数据挖掘中面对的通常都是大型的数据库,它的属性有几十个甚至几百个,因为其中某个属性值的缺失而放弃其他大量的属性值,这种删除是对信息极大的浪费,所以产生了插补缺失值的思想与方法。常见的填充缺失值的方法具体如下。
1,均值填充
数据的属性分为定距型和非定距型。如果缺失值是定距型的,就以该属性存在值的平均值插补缺失的值;如果缺失值足非疋距型的,就根据统计学中的众数原理,用该属性的众数(即出现频率最高的值)补齐缺失的值。
2,热卡填充
对于一个包含缺失值的对象﹐热卡填充方法会在完整数据集中找到一个与它最相似的对象的值进行填充。对于不同的问题,可能会选用不同的标准对相似对象进行判定,从概念上理解该方法很简单,利用数据间的关系进行缺失值评估。热卡填充方法的缺点在于难以定义相似标准,人为主观因素较多。
3,回归填充
将缺失值变量(自身字段)作为因变量,相关变量(其他字段)作为自变量进行回归拟合,用预测值作为填补值需要注意的是自变量的数据尽量是完整的。
与前述几种插补方法比较,回归填充方法的优势是可充分利用数据库中的信息,弊端主要有两点第一.该方法是无偏估计,但容易忽视随机误差、低估标准差和其他未知性质的测量值,而且这一问题会随着缺失信息的增多变得更加严重;第二,研究者必须假设存在缺失值所在的变量与其他变量存在线性关系,大多数情况下这种关系是不存在的。
4,多重填充
多重估算是由Rubin等人于1987年建立起的一种数据扩充和统计分析方法,作为简单估算的改进产物。首先,多重估算技术用一系列可能的值替换每个缺失值,以反映被替换的缺失数据的不确定性。然后,用标准的统计分析过程对多次替换后产生的若干个数据集进行分析。最后,把来自各个数据集的统计结果进行综合,得到总体参数的估计值。
由于多重估算技术并不是用单一的值替换缺失值,而是试图产生缺失值的一个随机样本,这种方法可以反映出由于数据缺失而导致的不确定性,产生更加有效的统计推断。
现对一份社会人员调查信息的数据文件people_survey.txt进行缺失值填充。
数据处理过程如下:
一,创建转换
二,”文本文件输入“的配置
1,”文件“选项卡的配置
2,”内容“选项卡的配置
3,”字段“选项卡的配置
三,”过滤记录“控件的配置
从原数据中可以看出字段userID为000016的用户hours_per_week存在缺失值,而他的worklass字段值为Private,因此可以将过滤字段设置为worklass,过滤值为Private作为过滤条件。
四,“替换NULL”的配置
字段hours_per_weekd的均值为44,故将缺失值全部填充为44.
五,”合并记录“控件的配置
”合并记录“控件主要是将两个数据源(旧数据源和新数据源)进行合并,标志字段主要是将每条数据进行标记,新数据源的数据会标记为new,旧数据源的数据会标记deleted,若新旧数据源中存在相同的关键字段设置的数据,则两个数据源进行合并后,只会保存从新数据源中获取的数据,并以identical进行标记。
因为图中字段只有userID是没有缺失值的且唯一,故以此作为匹配的关键字。
六”替换NULL2“控件的配置
可以从原数据中看出worklass中的值多是Private,故在此用Private替换缺失值。
七,字段选择
数据处理进行到这一步,在前面合并记录时多了一个字段”flagfield“用来表示数据的来源,而原数据中并没有此字段且对数据分析没有任何作用,因此,需将其移除。
八,查看结果
可见所有的空已全部填入。