龙源期刊网
http://www.qikan.com.cn
基于
EM
算法数据单变量缺失处理方法研究
作者:黄铉
来源:《科技传播》
2015
年第
20
期
摘
要
数据分析方法大都针对完整数据,而实际上由于一些原因,观测数据常存在缺失。
本文采用
EM
算法对正态分布下的随机缺失数据的参数进行估计。实验结果表明
EM
算法对正
态分布下的单变量缺失数据有效果,但缺失数据比例过大时该方法处理欠佳,对大比例变量缺
失的情况有待研究。
关键词
EM
;缺失数据;正态分布
中图分类号
TP39
文献标识码
A
文章编号
1674-6708
(
2015
)
149-0153-02
近年来数据库及计算机技术的发展推动了数据挖掘技术广泛地应用于各个领域。目前,对
数据进行处理的各种数据挖掘方法几乎都是以假设数据完整为前提条件。然而实际情况是数据
库里的数据往往不完整,数据缺失的情况时常发生。引起数据缺失的原因很多,比如:传感器
故障、数据传输中断、监测方式改变又或者人为因素等。如果直接对包含缺失数据的数据集进
行分析,结果会产生偏差会直接影响到后续的决策,因此对数据进行分析前对缺失数据的处理
尤为重要。
目前国内外学者针对缺失数据的研究很多,也取得了一定的成果。其中,
Rubin
(
1976
)
将缺失机制分为三类:完全随机缺失(
MCAR
)是指变量出现缺失值的可能性与模型中其他变
量无关,与该变量自身也无关,完全随机缺失机制中缺失数据的分布与完整数据分布一致。随
机缺失(
MAR
)是指变量出现缺失值的可能性与模型中某些观测变量有关而与该变量自身无
关。对于随机缺失机制,缺失数据可以通过完整数据来估计。非随机缺失(
MNAR
)是指变量
的缺失值仅与自身相关。单变量缺失是指数据集中只有某个变量出现信息不完整的情况,此时
对缺失值处理首要考虑数据缺失机制,不同的缺失机制有不同的处理方法。比如成列删除或者
成对删除的方法,如果数据为
MCAR
,减少的样本其实是原样本的一个随机样本,因此删除
后对剩下的数据进行处理是无偏差的;但如果数据为
MAR
,那么这种处理方法则会产生有偏
差的估计值。
本文主要研究数据单变量随机缺失的情况。
实验结果表明采用
EM
算法对不完整的数据进行处理可以用已知数据的条件期望代替缺失
数据。通过比较可见
EM
方法对缺失数据处理比不考虑缺失数据直接进行计算精度高,因而这
种方法处理缺失数据是有效果的,但通过不同缺失值得情况对比分析,对于正态分布数据,当
缺失数据比例低于
30%
时
EM
方法处理效果良好,当缺失数据比例不断增大缺失数据较多的时
候,对缺失数据参数估计效果欠佳。
EM
方法可以达到收敛到后验密度函数的稳定点,但不保
证结果是收敛到极大值点;另外初始值的选择对结果有一定影响,不同的初始值得到不同的估
计结果,因此选择不同的初始值进行迭代可以减轻初值对结果的影响。如果增大数据个数
EM