数据ETL面临的问题----数据缺失

数据缺失的类型有:

完全随机缺失(Missing Completely at Random,MCAR):数据的缺失与不完全变量以及完全变量都是无关的;随机缺失(Missing at Random,MAR):数据的缺失不是完全随机的,数据的缺失只依赖于完全变量;              完全非随机缺失(Missing Not At Random,MNAR):数据的缺失依赖于不完全变量自身。

四、数据缺失的处理办法

数据缺失在统计过程中是一个很重要的问题, 全世界都很关注,他的处理方法更是一个新兴的领域,综合各个国家

的研究结果,大致有以下几种方法。

(一)删除法(Deletion)
这种方法非常简单, 当被调查对象出现缺失的变量值, 并且这些缺失的变量值占总体数据的总量很小的情
况下, 这种方法非常有效。解决方法就是将存在缺失的变量值删除, 形成一个完整的调查表。但是这种方法有
它的不足之处,在删除缺失数据的过程中,减少了原始的数据,导致了信息的损耗,而且丢失了很多包含在被删除
数据中的信息。特别是当被研究的数据本身数量很少的时候, 删除少量数据就足以影响整体结果的客观性以及
正确性。所以,当缺失数据占总体数据比例很大时,这种方法将会导致错误结论。
(二)填补法(Imputation)
当有数据缺失的记录在整个数据中只占一个很小比例时,可以直接删除缺失记录,对余下的完全数据进行处
理。但是在实际数据中,往往缺失数据占有相当的比重,这样做不仅会产生偏差,甚至会得出有误导性的结论,同

时丢失大量信息,造成浪费。因此我们使用一种新的方法来进行处理。目前,填补法是处理数据缺失时普遍使用的

一种技术,就是说给各个缺失数据找一个填充值,用这样的方法得到“完整数据”,然后用标准正常的完整数据的
统计方法进行数据分析和推断。
    1. 人工填写法(Filling Manually)。专家根据专业知识对缺失数据进行填补, 这是一种非常精确的方法。但是
他的缺点是费时又费力,当缺失的数值很多时,使用这种方法是基本不可能的。
    2. 平均值填充法(Mean/Mode Imputation)。删除法用以解决少量缺失值, 但是当缺失值大量出现时我们就需
要使用一种新的方法, 即平均值填充法。在处理数据时可以把变量分为数值型和非数值型。如果是非数值型的
缺失数据,运用统计学中众数的原理,用此变量在其他对象中取值频数最多的值来填充缺失值; 如果是数值型的
缺失值, 则取此变量在其他所有对象的取值均值来补齐缺失值。这种方法的优点是简便、快速,缺点是要建立在
完全随机缺失(MCAR)的假设之上。
    3. 热卡填充法(Hot Deck Imputation,或就近补齐)。对于一个包含空值的变量, 本方法是在完整数据中找到
一个与空值最相似的变量, 然后用这个相似的值来进行填充。与均值替换法相比, 本方法简单易懂还可以保持
数据本身的类型,利用本方法填充数据后,其变量值与填充前很接近。但是这种方法也存在不足之处, 就是其主
观因素较多,还比较耗时。
   4. 使用任何可能的值填充(Assigning All Possible values of the Attribute)。这种方法是用缺失值所有可能的
数值来填充, 能够起到一个补齐效果。而这种方法的缺点是,当要研究的数据量很大或者缺失的数值较多时,他
的计算量很大,需要测试的方案很多。针对其缺点有另外的一种方法,用一样的方法来填补缺失数,不同的是从结
果相同的对象中选择所有可能情况的数值, 而不是根据所有情况的对象进行尝试, 这样能够在一定程度上缓解
原方法的不足。
   5. 多重填补法(Multiple Imputation,MI)。多重填补法是由Rubin等人根据贝叶斯估计原理于1978年建立起来
的。多重填补的原理是首先为缺失值产生一系列用来填充的数值,把这个系列中的每一个值都用来填充,产生相
对应的一系列的完整的数据集合。再将这些经过填充过的数据集合使用完整数据的方法进行研究。最后把各个

填充过的数据集合结果进行综合考量得出结论, 这个结论考虑到了数据填补过程中产生的各种不确定性。这种
方法的缺点也是不能不重视的:第一,计算很复杂;第二,是要求数据集满足贝叶斯假设,这个在现实中很难实现;
第三,是多重填补法只适用于统计分析,不适合数据挖掘的需要。
(三)不处理
既然每种方法都有其不足之处, 那么就直接在包含空值的数据上进行数据挖掘。这样既节省了时间又减轻
了负担。但是这种方法也不是完美的,也有其弱点,现实工作中,大家对数据是没有前期知识的,而采用此种方法
要求使用者对部分数据先进行假设, 但是在没有任何前期知识的情况下,很容易假设出错误的结论,而且即使知
道数据中的一些参数, 要估计出正确的数值也需要很长的时间,所以说也不是非常实用的。

综合以上三种方法,可以知道,每种方法都适用于不同的条件, 而每种方法都有其不足之处。在实际的工作
中, 我们要根据实际情况正确选择解决方法。当数据样本很大, 而缺失数据所占比例很小的情况下我们可以使
用“删除法”;当数据缺失值形式是MCAR,并且样本容量并不大的情况下,可采用“填补法”;当以上两种方法都不实用的情况下我们可以考虑使用“不处理”的方法。针对不同的问题我们不能一概而论,关键是要分清实质,寻找
到在当前条件下最适宜的方法, 使不完全样本的已有信息得到最佳利用。





  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值