目录
5. 多重插补方法(Multiple Imputation)
2.3 总结
1. 异常数据
1.1 物理判别法:
根据人们对客观事物已有的认识,判别由于外界干扰、人为误差等原因造成实测数据偏离正常结果,在实验过程中随时判断,随时剔除
1.2 统计判别法:
给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常数据剔除 用物理判别法判定异常数据有时不易做到,此时只能用统计判别法统计判断对异常数据的区分
犯错误1:将本来属于该总体的、出现的概率小的、第二种情况的异常值判断出来舍去,就会犯错误。 ----去真 |
因此拉依达准则不能检验样本量较小的情况。(显著性水平为0.1时, n必须大于10)
对于服从正态分布的测量结果,其偏差出现在±3σ附近的概率已经很小,如果测量次数不多,偏差超过±3σ几乎不可能,因而,用拉依达判据剔除疏失误差时,往往有些疏失误差剔除不掉。 |
1.3 应注意的问题:
① 所有的检验法都是人为主观拟定的,至今无统一的规定。 以数据按正态分布为前提的,当偏离正态分布和测量次数少时检验不一定可靠。 |
对于异常数据一定要慎重,不能任意的抛弃和修改。往往通过对异常数据的观察,可以发现引起系统误差的原因,进而改进过程和试验。 |
2. 缺失数据
在实践工作中,常会因为某些原因导致数据缺失,只能观测到一部分数据,统计学中一般称为缺失数据
2.1 产生原因:
信息暂时无法获取 信息是被遗漏的 某个或某些属性是不可用的 某些信息(被认为)是不重要的 获取这些信息的代价太大 系统实时性能要求较高,即要求得到这些信息前迅速做出判断或决策 |
2.2 缺失数据预处理思想
1. 保留缺失数据不予处理:
不对缺失数据做任何处理
2. 直接丢弃含缺失数据的记录,
也就是将存在遗漏信息属性值的对象(元组、记录)删除,从而得到一个完备的信息表.
个案剔除法(Listwise Deletion) 注意: 如果缺失值所占比例比较小,这一方法十分有效。 至于具体多大的缺失比例算是“小”比例,专家们意见也存在较大的差距。有学者认为应在5%以下,也有学者认为20%以下即可。 |
局限性: 以减少样本量来换取信息的完备,会造成资源的大量浪费,丢弃了大量隐藏在这些对象中的信息。 |
当缺失数据所占比例较大,特别是当缺失数据非随机分布时,这种方法可能导致数据发生偏离,从而得出错误的结论。 |
3. 特殊值填充:
将缺值作为一种特殊的属性值来处理,它不同于其他的任何属性值.如所有的缺值都用“unknown”填充,这样将可能导致严重的数据偏离, 不推荐!
A. 用平均值来代替所有缺失数据 |
4. 单一插补
单一插补是以估算为基础的方法,是在缺失数据被替代后,对新合成的数据进行相应的统计分析。
优点 | 改变了传统方法将缺失值忽略不考虑的习惯,使得各种统计分析均可以在插补后的完整数据集上展开。 |
缺点 | 无论采用何种方法,都存在扭曲样本分布的问题(如均值插补会降低变量之间的相关关系,回归插补则会人为地加大变量之间的相关关系) 尽管由于随机回归插补引入随机误差项,能够缓解这一问题,但是随机误差项的确定是比较困难的。 |
常用方法:
1:均值插补
2: 热卡填充发法
3:回归插补
4:回归随机插补
1. 均值插补(Mean Imputation) |
特点:
|
2. 热卡填充法(Hotdecking) |
特点:
|
3. 回归插补(Regression Imputation) | 选择若干个预测缺失值的自变量,然后建立回归方程估计缺失值,即用缺失数据的条件期望值对缺失值 缺点:
|
4. 随机回归插补 |
|
5. 多重插补方法(Multiple Imputation)
多重插补建立在贝叶斯理论基础之上,基于EM算法(最大期望算法 )来实现对缺失数据的处理。
三个步骤: | ①为每个空值产生一套可能的插补值,这些值反映了无响应模型的不确定性;每个值都可以被用来插补数据 集中的缺失值,产生若干个完整数据集合。 ②每个插补数据集合都用针对完整数据集的统计方法进行统计分析。 ③对来自各个插补数据集的结果,根据评分函数进行选择,产生最终的插补值。 |
弥补了单一插补法的缺陷 |
|
多重插补和贝叶斯估计的思想是一致的,多重插补弥补了贝叶斯估计的几个不足 | (1)贝叶斯估计以极大似然的方法估计,极大似然的 2)贝叶斯估计仅要求知道未知参数的先验分布,没有利用与参数的关系。而多重插补对参数的联合分布作出了估计,利用了参数间的相互关系。 |
2.3 总结
总之,缺失值处理方法的选用取决于缺失值的形式、缺失样本总样本的比例等具体情况而定,最终的衡量标准要保证最终数据的客观性与准确性。