异常值与缺失值处理 总结及感受

目录

1. 异常数据

1.1 物理判别法:

1.2 统计判别法:

1.3 应注意的问题:

2. 缺失数据

2.1 产生原因:

2.2 缺失数据预处理思想

1. 保留缺失数据不予处理:

2. 直接丢弃含缺失数据的记录,

3. 特殊值填充:

4. 单一插补

5. 多重插补方法(Multiple Imputation)

2.3 总结


 


1. 异常数据

1.1 物理判别法:

根据人们对客观事物已有的认识,判别由于外界干扰、人为误差等原因造成实测数据偏离正常结果,在实验过程中随时判断,随时剔除

1.2 统计判别法:

给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常数据剔除

用物理判别法判定异常数据有时不易做到,此时只能用统计判别法统计判断对异常数据的区分


异常数据有两种情况
1. 异常值不属于该总体,抽样抽错了,从另外一个总体抽出一个(一些)数据,其值与总体平均值相差较大;
2. 异常值虽属于该总体,但可能是该总体固有随机变异性的极端表现,比如说超过3σ的数据,出现的概率很小。

 

犯错误1:将本来属于该总体的、出现的概率小的、第二种情况的异常值判断出来舍去,就会犯错误。 ----去真
犯错误2:不属于该总体但数值又和该总体平均值接近的数据被抽样抽出来,统计检验方法判断不出它是异常值,就会犯另外一种错误。 ---存伪

因此拉依达准则不能检验样本量较小的情况。(显著性水平为0.1时, n必须大于10)

 

对于服从正态分布的测量结果,其偏差出现在±3σ附近的概率已经很小,如果测量次数不多,偏差超过±3σ几乎不可能,因而,用拉依达判据剔除疏失误差时,往往有些疏失误差剔除不掉。
另外,仅仅根据少量的测量值来计算σ,这本身就存在不小的误差。

1.3 应注意的问题:

① 所有的检验法都是人为主观拟定的,至今无统一的规定

     以数据按正态分布为前提的,当偏离正态分布和测量次数少时检验不一定可靠。
② 若有多个可疑数据同时超过检验所定置信区间,应逐个剔除,重新计算,再行判别。若有两个相同数据超出范围时,应逐个剔除。(异常程度太大的话,会影响均值和标准差的计算)
③在一组测量数据中,可疑数据应很少。反之,说明系统工作不正常。
④为了减少犯错误的概率,可以将3种以上统计检验法结合使用,根据多数方法的判断结果,确定可疑值是否为异常值

对于异常数据一定要慎重,不能任意的抛弃和修改。往往通过对异常数据的观察,可以发现引起系统误差的原因,进而改进过程和试验。

 

2. 缺失数据


在实践工作中,常会因为某些原因导致数据缺失,只能观测到一部分数据,统计学中一般称为缺失数据

2.1 产生原因:

信息暂时无法获取
信息是被遗漏的
某个或某些属性是不可用的
某些信息(被认为)是不重要的
获取这些信息的代价太大
系统实时性能要求较高,即要求得到这些信息前迅速做出判断或决策
 

2.2 缺失数据预处理思想


1. 保留缺失数据不予处理

不对缺失数据做任何处理


2. 直接丢弃含缺失数据的记录,

也就是将存在遗漏信息属性值的对象(元组、记录)删除,从而得到一个完备的信息表.

个案剔除法(Listwise Deletion)
      最常见、最简单的处理缺失数据的方法,也是很多统计软件(如SPSS)默认的缺失值处理方法。

注意:

     如果缺失值所占比例比较小,这一方法十分有效

      至于具体多大的缺失比例算是“小”比例,专家们意见也存在较大的差距。有学者认为应在5%以下,也有学者认为20%以下即可。

局限性

      以减少样本量来换取信息的完备,会造成资源的大量浪费丢弃了大量隐藏在这些对象中的信息

      当缺失数据所占比例较大,特别是当缺失数据非随机分布时,这种方法可能导致数据发生偏离,从而得出错误的结论


3. 特殊值填充

将缺值作为一种特殊的属性值来处理,它不同于其他的任何属性值.如所有的缺值都用“unknown”填充,这样将可能导致严重的数据偏离, 不推荐!

A. 用平均值来代替所有缺失数据
B. K -最近距离邻居法:先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。
C.用回归、贝叶斯形式化方法或判定树归纳确定,这些方法直接处理的是模型参数的估计而不是空缺值预测本身.与前面的方法相比,它使用现存数据的多数信息来推测空缺值

4. 单一插补

单一插补是以估算为基础的方法,是在缺失数据被替代后,对新合成的数据进行相应的统计分析。

优点改变了传统方法将缺失值忽略不考虑的习惯,使得各种统计分析均可以在插补后的完整数据集上展开。
缺点

       无论采用何种方法,都存在扭曲样本分布的问题(如均值插补会降低变量之间的相关关系,回归插补则会人为地加大变量之间的相关关系)

       尽管由于随机回归插补引入随机误差项,能够缓解这一问题,但是随机误差项的确定是比较困难的。

常用方法:

1:均值插补
2: 热卡填充发法
3:回归插补
4:回归随机插补

1. 均值插补(Mean Imputation)
  1. 数值型的:平均值来填充该缺失的变量值
  2. 非数值型的,众数来补齐该缺失的变量值。

 

特点:

  1.       简便、快速
  2.        对该变量的均值估计不会产生影响。但这种方法是建立在完全随机缺失(MCAR)的假设之上的,而且会造成变量的方差和标准差变小
2. 热卡填充法(Hotdecking)
  1. 在数据库中找到一个与最相似的对象,然后用这个相似对象的值来进行填充。
  2. 不同的问题    不同的标准   来对相似进行判定。(变量Y与变量X相似,把所有个案按Y的取值大小进行排序。那么变量X的缺失值就可以用排在缺失值前的那个个案的数据来代替了。)

 

特点:

  1.  与均值替换法相比,利用热卡填充法插补数据后,其变量的标准差与插补前比较接近
  2. 但在回归方程中,使用热卡填充法容易使得回归方程的误差增大参数估计变得不稳定
  3. 而且这种方法使用不便,比较耗时
3. 回归插补(Regression Imputation)

选择若干个预测缺失值的自变量,然后建立回归方程估计缺失值,即用缺失数据的条件期望值对缺失值
进行替换。

缺点

  1. 容易忽视随机误差低估标准差和其他未知性质的测量值,而且这一问题会随着缺失信息的增多而变得更加严重。
  2. 研究者必须假设存在缺失值所在的变量与其他变量存在线性关系,很多时候这种关系是不存在的。
4. 随机回归插补
  1. 在回归插补值的基础上再加上残差项
  2. 残差项的分布可以包括正态分布,也可以是其他的非正态分布。

 

5. 多重插补方法(Multiple Imputation)


多重插补建立在贝叶斯理论基础之上,基于EM算法(最大期望算法 )来实现对缺失数据的处理。
 

三个步骤:①为每个空值产生一套可能的插补值,这些值反映了无响应模型不确定性;每个值都可以被用来插补数据
集中的缺失值,产生若干个完整数据集合。
每个插补数据集合都用针对完整数据集的统计方法进行统计分析
③对来自各个插补数据集的结果,根据评分函数进行选择,产生最终的插补值。
弥补了单一插补法的缺陷
  1. 多重插补过程产生多个中间插补值,可以利用插补值之间的变异反映无回答的不确定性(无回答原因已知情况下抽样的变异性、无回答原因不确定造成的变异性)
  2. 多重插补通过模拟缺失数据的分布,较好地保持变量之间的关系
  3. 多重插补能给出衡量估计结果不确定性大量信息,单一插补给出的估计结果则较为简单。
多重插补和贝叶斯估计的思想是一致的,多重插补弥补了贝叶斯估计的几个不足

(1)贝叶斯估计以极大似然的方法估计,极大似然的
方法要求模型的形式必须准确,如果参数形式不正确,将得到错误结论,即先验分布将影响后验分布的准确性。 而多重插补所依据的是大样本渐近完整的数据的理论,在数据挖掘中的数据量都很大,先验分布将极小的影响结果,所以先验分布对结果的影响不大。
 

2)贝叶斯估计仅要求知道未知参数的先验分布,没有利用与参数的关系。而多重插补对参数的联合分布作出了估计,利用了参数间的相互关系。



2.3 总结

总之,缺失值处理方法的选用取决于缺失值的形式、缺失样本总样本的比例等具体情况而定,最终的衡量标准要保证最终数据的客观性与准确性。
 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值