异常值检测

1.定义:异常值是指样本中的个别值,其数值明显偏离它所属样本的其余观测值。

2.异常值检测的作用:异常值分析是检验数据是否有录入错误以及含有不合常理的数据。忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会产生不良影响。

3.三种方式检测异常值:标准差法、Z-Score法、箱线图(四分位距 - IQR)法。:

(1)标准差法:正太分布图

(2)Z-Score法:

Z-Score也称为标准分数。 该分数有助于了解数据点与平均值之间的标准差。 Z-Score是测量单位,它告诉我们数据点与平均值的距离。 例如:数据点 A 与平均值相差 2 个标准差。 这个 2 就是Z-Score。

下面再次检查正态分布以确定阈值。 让我们看一下标准偏差方法部分中的正态分布图。 正如上面前提到的,99.7% 的数据在正态分布的 -3、+3 标准差范围内,因此我们可以将超出此范围的数据点视为异常值。

(3)箱线图(四分位距 - IQR)法:在统计学中,四分位距 (IQR) 描述了从最低到最高排序的中间 50% 的数据。 要找到 IQR,需要先将数据从最低到最高排序。 然后将数据分成 4 个相等的部分,并指定 Q1、Q2、Q3 称为第一、第二和第三四分位数。 IQR 是 Q3 和 Q1 之间的差。 我们 50% 的数据介于这些四分位数之间。

  • Q1 代表数据的第 25 个百分位。
  • Q2 代表数据的第 50 个百分位。
  • Q3 代表数据的第 75 个百分位。

例如我们有这样的数据:[1, 2, 2, 4, 5, 15, 6, 7, 8, 9, 10, 11, 17, 24, 33],我们想要找到 IQR。首先对这个数组进行排序; [1、2、2、4、5、6、7、8、9、10、11、15、17、24、33],然后我们找到四分位数;

Q1 25th , 4.5
Q2 50th , 8.0
Q3 75th , 13.0

计算IQR

IQR = Q3 - Q1

现在使用箱线图法用IQR 值计算上限和下限

Lower Limit = Q1 - 1.5 * IQR
Upper Limit = Q3 + 1.5 * IQR

之后,如果数据低于下限或高于上限,就可以将此数据点称为异常值。

4.处理异常值:删除值、修改值、异常值的对数转换

异常值的对数转换:

对数转换,就是将每个变量 x 都替换为 log(x),其中对数的基数被认为是常见的使用基数 10、基数 2 和自然对数 ln。

在应用对数转换之前,应该需要再次考虑下是否需要, 因为如果每个变量之间的距离很重要,那么取变量的对数会使距离倾斜,可能产生更大的问题。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值