统计—数据清理

目的

  • 极端值会扭曲分析结果
  • 缺失值在采集数据时很难避免
  • 使用多元统计方法之前,需要确保数据集和前提假设匹配

一、异常值

单变量异常值&多变量异常值

1、单变量异常值

1 ) 根据标准分数判定
小样本 —— 标准分数大于等于 2.5
大样本 —— 最高是 4
2 )盒式图
大于上四分位数加 1.5 倍四分位距或小于下四分位数减 1.5 倍四分位距被划分为异常值。
处于 1.5 -3 倍四分位矩之间的异常值为温和的异常值
处于 3 倍四分位距之外的异常值为极端的异常值

2、双变量异常值的检测

散点图——置信椭圆

3、多变量异常值的检测

马氏距离D^2—— D²/df近似服从t分布,可以对其进行显著性检验,置信度为
α=0.005或0.001,将落在置信区间外的观测点识别为潜在异常值。小样
本时临界值设为 2.5 ,大样本时临界值设为 3或4

4、异常值处理

  • 如果异常值不属于总体,就删除
  • 如果异常值可代表总体的一部分,或不确定是否异常,尽量保留,转换变量降低极端值对分析结果的影响。

二、缺失值

  • 缺失数据使样本量减少,会导致统计检验力的下降,此外,对于非随机的缺失机制,得到的统计结果可能是有偏的。

缺失数据处理步骤

(1)检查数据的缺失类型
(2)检查数据的缺失程度
(3)诊断数据的缺失机制
(4)选择插补方法

1、检查数据的缺失类型

设计上可忽略的缺失数据
1. 缺失是研究设计的一部分
2. 抽样而不是总体
3. 截断数据:用男飞行员的身高估计男性整体身高
设计上不可忽略的缺失数据
1. 已知的情况:过程性因素导致的缺失。比如数据录入错误,无效
编码(用户定义缺失值);数据公开受限;没有完成问卷;被试
选取失误等。
2. 未知的情况:直接由被试的原因导致的。比如被试拒绝回答某些
题目(如收入、有争议的话题等敏感问题);被试没有足够的知
识回答问题等。

2、检查数据的缺失程度

缺失比例低于10%,使用任何一种缺失数据的处理方法,差异都
不大,但不包括非随机缺失。【横看纵看都包括】
对有过多缺失的个案或变量进行简单的处理——删除;缺失比例
15%以上的变量可以考虑删除,但缺失比例更高的
(20%~30%),通常会进行补救。
PS:
①要确保在删除一个变量或个案后,总体上数据的缺失比例会明显减小。
②通常会删除因变量有缺失的个案,避免造成因变量与自变量之间的关系
虚假高估。
③删除一个变量时,确保数据中有可替代的变量,替代变量与被删变量具
有高相关。
④考虑对删除前后的数据同时进行分析,其分析结果是否存在明显差异。

3、缺失值的模式

完全随机缺失(MCAR):缺失情况相对于所有数据来说是独立
的。缺失不依赖与Y本身,也不依赖于其它变量。直接删除或插
补。——1、独立样本t检验— 单个变量MAR 2、随机性的整体检验,Little’s MCAR检验-- 数据整体检验
随机缺失(MAR):一个观测出现缺失值的概率是由数据集中不
含缺失值的变量决定的,而不是由含缺失值的变量决定的。不依
赖于Y本身,可以由数据集中的其它变量来预测。
非随机缺失(MNAR):是与缺失数据本身存在某种关联,比如
问题设计过于敏感造成的缺失,统计上不可忽略的缺失。

4、选择插补方法

如果缺失机制是完全随机缺失(MCAR)
1. 只使用有效数据
2. 使用替换值进行插补
如果缺失机制是MAR
一般使用专门设计的基于模型的方法,如极大似然估计、多重差补、
贝叶斯插补等,或者直接将缺失数据作为分析的一部分加入模型。
如果缺失机制是非随机缺失(MNAR)
基于模型的方法
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值