1.定义:异常值是指样本中的个别值,其数值明显偏离它所属样本的其余观测值。
2.异常值检测的作用:异常值分析是检验数据是否有录入错误以及含有不合常理的数据。忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会产生不良影响。
3.三种方式检测异常值:标准差法、Z-Score法、箱线图(四分位距 - IQR)法。:
(1)标准差法:正太分布图
(2)Z-Score法:
Z-Score也称为标准分数。 该分数有助于了解数据点与平均值之间的标准差。 Z-Score是测量单位,它告诉我们数据点与平均值的距离。 例如:数据点 A 与平均值相差 2 个标准差。 这个 2 就是Z-Score。
下面再次检查正态分布以确定阈值。 让我们看一下标准偏差方法部分中的正态分布图。 正如上面前提到的,99.7% 的数据在正态分布的 -3、+3 标准差范围内,因此我们可以将超出此范围的数据点视为异常值。
(3)箱线图(四分位距 - IQR)法:在统计学中,四分位距 (IQR) 描述了从最低到最高排序的中间 50% 的数据。 要找到 IQR,需要先将数据从最低到最高排序。 然后将数据分成 4 个相等的部分,并指定 Q1、Q2、Q3 称为第一、第二和第三四分位数。 IQR 是 Q3 和 Q1 之间的差。 我们 50% 的数据介于这些四分位数之间。
- Q1 代表数据的第 25 个百分位。
- Q2 代表数据的第 50 个百分位。
- Q3 代表数据的第 75 个百分位。
例如我们有这样的数据:[1, 2, 2, 4, 5, 15, 6, 7, 8, 9, 10, 11, 17, 24, 33],我们想要找到 IQR。首先对这个数组进行排序; [1、2、2、4、5、6、7、8、9、10、11、15、17、24、33],然后我们找到四分位数;
Q1 25th , 4.5
Q2 50th , 8.0
Q3 75th , 13.0
计算IQR
IQR = Q3 - Q1
现在使用箱线图法用IQR 值计算上限和下限
Lower Limit = Q1 - 1.5 * IQR
Upper Limit = Q3 + 1.5 * IQR
之后,如果数据低于下限或高于上限,就可以将此数据点称为异常值。
4.处理异常值:删除值、修改值、异常值的对数转换
异常值的对数转换:
对数转换,就是将每个变量 x 都替换为 log(x),其中对数的基数被认为是常见的使用基数 10、基数 2 和自然对数 ln。
在应用对数转换之前,应该需要再次考虑下是否需要, 因为如果每个变量之间的距离很重要,那么取变量的对数会使距离倾斜,可能产生更大的问题。