目的
- 极端值会扭曲分析结果
- 缺失值在采集数据时很难避免
- 使用多元统计方法之前,需要确保数据集和前提假设匹配。
一、异常值
单变量异常值&多变量异常值
1、单变量异常值
1
) 根据标准分数判定
小样本
——
标准分数大于等于
2.5
大样本
——
最高是
4
2
)盒式图
大于上四分位数加
1.5
倍四分位距或小于下四分位数减
1.5
倍四分位距被划分为异常值。
处于
1.5
倍
-3
倍四分位矩之间的异常值为温和的异常值
○
处于
3
倍四分位距之外的异常值为极端的异常值
★
2、双变量异常值的检测
散点图——置信椭圆
3、多变量异常值的检测
马氏距离D^2——
D²/df近似服从t分布,可以对其进行显著性检验,置信度为
α=0.005或0.001,将落在置信区间外的观测点识别为潜在异常值。小样
本时临界值设为
2.5
,大样本时临界值设为
3或4
4、异常值处理
- 如果异常值不属于总体,就删除
- 如果异常值可代表总体的一部分,或不确定是否异常,尽量保留,转换变量降低极端值对分析结果的影响。
二、缺失值
- 缺失数据使样本量减少,会导致统计检验力的下降,此外,对于非随机的缺失机制,得到的统计结果可能是有偏的。
缺失数据处理步骤
(1)检查数据的缺失类型
(2)检查数据的缺失程度
(3)诊断数据的缺失机制
(4)选择插补方法
1、检查数据的缺失类型
设计上可忽略的缺失数据
1.
缺失是研究设计的一部分
2.
抽样而不是总体
3.
截断数据:用男飞行员的身高估计男性整体身高
设计上不可忽略的缺失数据
1.
已知的情况:过程性因素导致的缺失。比如数据录入错误,无效
编码(用户定义缺失值);数据公开受限;没有完成问卷;被试
选取失误等。
2.
未知的情况:直接由被试的原因导致的。比如被试拒绝回答某些
题目(如收入、有争议的话题等敏感问题);被试没有足够的知
识回答问题等。
2、检查数据的缺失程度
缺失比例低于10%,使用任何一种缺失数据的处理方法,差异都
不大,但不包括非随机缺失。【横看纵看都包括】
对有过多缺失的个案或变量进行简单的处理——删除;缺失比例
15%以上的变量可以考虑删除,但缺失比例更高的
(20%~30%),通常会进行补救。
PS:
①要确保在删除一个变量或个案后,总体上数据的缺失比例会明显减小。
②通常会删除因变量有缺失的个案,避免造成因变量与自变量之间的关系
虚假高估。
③删除一个变量时,确保数据中有可替代的变量,替代变量与被删变量具
有高相关。
④考虑对删除前后的数据同时进行分析,其分析结果是否存在明显差异。
3、缺失值的模式
◼
完全随机缺失(MCAR):缺失情况相对于所有数据来说是独立
的。缺失不依赖与Y本身,也不依赖于其它变量。直接删除或插
补。——1、独立样本t检验—
单个变量MAR
2、随机性的整体检验,Little’s MCAR检验--
数据整体检验
◼
随机缺失(MAR):一个观测出现缺失值的概率是由数据集中不
含缺失值的变量决定的,而不是由含缺失值的变量决定的。不依
赖于Y本身,可以由数据集中的其它变量来预测。
◼
非随机缺失(MNAR):是与缺失数据本身存在某种关联,比如
问题设计过于敏感造成的缺失,统计上不可忽略的缺失。
4、选择插补方法
如果缺失机制是完全随机缺失(MCAR)
1.
只使用有效数据
2.
使用替换值进行插补
如果缺失机制是MAR
一般使用专门设计的基于模型的方法,如极大似然估计、多重差补、
贝叶斯插补等,或者直接将缺失数据作为分析的一部分加入模型。
如果缺失机制是非随机缺失(MNAR)
基于模型的方法