在数据分析工作中,面对收集而来的数据,数据清洗是首要环节。而异常值处理是其中的一个重要部分。下面就给大家介绍一下如何处理数据中的异常值。
一、异常值判断
何为异常值?
异常值,指的是样本中的一些数值明显偏离其余数值的样本点,所以也称为离群点。异常值分析就是要将这些离群点找出来,然后进行分析。
异常值判断
在不同的数据中,鉴别异常值有不同的标准,常规有以下几种:
-
- (1)数字超过某个标准值
这是最常用的异常值判断方法之一。主要是看数据中的最大值或最小值,依据专业知识或个人经验,判断是否超过了理论范围值,数据中有没有明显不符合实际情况的错误。
比如,测量成年男性身高(M),出现17.8m这样的数据,显然不符合实际情况。
又或者,如问卷数据使用1-5级量表进行研究,出现-2,-3这类数据,则可能提示为跳转题、空选等。
-
- (2)数据大于±3标准差
3σ 原则是在数据服从正态分布的时候用的
本文详细介绍了数据分析中异常值的判断、鉴别和处理方法,包括数字标准、3σ原则、箱盒图、描述分析和散点图等工具。异常值处理策略包括设为缺失值、填补和不处理,提醒分析人员应根据情况判断是否剔除异常值,处理前最好备份数据。
最低0.47元/天 解锁文章

739

被折叠的 条评论
为什么被折叠?



