统计—数据清理

月亮月亮要去太阳

于 2023-10-26 21:34:33 发布

阅读量280

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43710593/article/details/134064928

版权

目的

极端值会扭曲分析结果
缺失值在采集数据时很难避免
使用多元统计方法之前，需要确保数据集和前提假设匹配。

一、异常值

单变量异常值&多变量异常值

1、单变量异常值

1 ）根据标准分数判定

小样本 —— 标准分数大于等于 2.5

大样本 —— 最高是 4

2 ）盒式图

大于上四分位数加 1.5 倍四分位距或小于下四分位数减 1.5 倍四分位距被划分为异常值。

处于 1.5 倍 -3 倍四分位矩之间的异常值为温和的异常值 ○

处于 3 倍四分位距之外的异常值为极端的异常值 ★

2、双变量异常值的检测

散点图——置信椭圆

3、多变量异常值的检测

马氏距离D^2—— D²/df近似服从t分布，可以对其进行显著性检验，置信度为

α=0.005或0.001，将落在置信区间外的观测点识别为潜在异常值。小样

本时临界值设为 2.5 ，大样本时临界值设为 3或4

4、异常值处理

如果异常值不属于总体，就删除
如果异常值可代表总体的一部分，或不确定是否异常，尽量保留，转换变量降低极端值对分析结果的影响。

二、缺失值

缺失数据使样本量减少，会导致统计检验力的下降，此外，对于非随机的缺失机制，得到的统计结果可能是有偏的。

缺失数据处理步骤

（1）检查数据的缺失类型

（2）检查数据的缺失程度

（3）诊断数据的缺失机制

（4）选择插补方法

1、检查数据的缺失类型

设计上可忽略的缺失数据

1. 缺失是研究设计的一部分

2. 抽样而不是总体

3. 截断数据：用男飞行员的身高估计男性整体身高

设计上不可忽略的缺失数据

1. 已知的情况：过程性因素导致的缺失。比如数据录入错误，无效

编码（用户定义缺失值）；数据公开受限；没有完成问卷；被试

选取失误等。

2. 未知的情况：直接由被试的原因导致的。比如被试拒绝回答某些

题目（如收入、有争议的话题等敏感问题）；被试没有足够的知

识回答问题等。

2、检查数据的缺失程度

 缺失比例低于10%，使用任何一种缺失数据的处理方法，差异都

不大，但不包括非随机缺失。【横看纵看都包括】

 对有过多缺失的个案或变量进行简单的处理——删除；缺失比例

15%以上的变量可以考虑删除，但缺失比例更高的

（20%~30%）,通常会进行补救。

PS:

①要确保在删除一个变量或个案后，总体上数据的缺失比例会明显减小。

②通常会删除因变量有缺失的个案，避免造成因变量与自变量之间的关系

虚假高估。

③删除一个变量时，确保数据中有可替代的变量，替代变量与被删变量具

有高相关。

④考虑对删除前后的数据同时进行分析，其分析结果是否存在明显差异。

3、缺失值的模式

◼ 完全随机缺失（MCAR）：缺失情况相对于所有数据来说是独立

的。缺失不依赖与Y本身，也不依赖于其它变量。直接删除或插

补。——1、独立样本t检验— 单个变量MAR 2、随机性的整体检验，Little’s MCAR检验-- 数据整体检验

◼ 随机缺失（MAR）：一个观测出现缺失值的概率是由数据集中不

含缺失值的变量决定的，而不是由含缺失值的变量决定的。不依

赖于Y本身，可以由数据集中的其它变量来预测。

◼ 非随机缺失（MNAR）：是与缺失数据本身存在某种关联，比如

问题设计过于敏感造成的缺失，统计上不可忽略的缺失。

4、选择插补方法

 如果缺失机制是完全随机缺失(MCAR)

1. 只使用有效数据

2. 使用替换值进行插补

 如果缺失机制是MAR

一般使用专门设计的基于模型的方法，如极大似然估计、多重差补、

贝叶斯插补等，或者直接将缺失数据作为分析的一部分加入模型。

 如果缺失机制是非随机缺失（MNAR）

基于模型的方法

月亮月亮要去太阳

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。