缺失值的检查与处理应该来说是比较简单的,这篇先来说说异常值的检查与处理
一、异常值的检查
异常值的检查,最初我都是作图观察,把那些明显偏离了整体分布情况的点划归为异常点,这样的做法也带有比较强的主观性。
这边补充一些用来判断异常值的统计学方法。
1、基于正态分布的一元离群点检测方法
假设有 n 个点 ,那么可以计算出这 n 个点的均值 和方差。均值和方差分别被定义为:
在正态分布的假设下,区域 正负三个标准差 包含了99.7% 的数据,如果某个值距离分布的均值 超过了三个标准差,那么这个值就可以被简单的标记为一个异常点(outlier)。
2、箱线图
箱线图是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法。箱线图无需对数据进行正态分布要求。适用范围广。