异常值是远离其他数据点的数据点,例如在图像中您会看到异常值。
那么我们如何找到包含异常值的行在这篇文章中,我们在数据的 r_values 列中找到异常值。
因此,要提取异常值,我们需要两个值
- 第 25 个百分位值
- 第 75 个百分位值
以及为什么我们需要这两个值,因为四分位数范围是第 25 个百分位数和第 75 个百分位数之间的距离
让我们先找出这两个值,然后
我们需要将 NumPy 导入为 np
Q1 = np。分位数(数据[‘r_values’],0.25)
Q3 = np。分位数(数据[‘r_values’],0.75)
上述语法的作用是它只是对 r_values 列进行排序,并在 Q1 中找到第 25 个值和在 Q3 中找到第 75 个百分位值。
要找到 IQR 值,我们需要找到 Q3 和 Q1 之间的差异
IQR = Q3 - Q1
下一步是找到阈值 thresh1 和 thresh2
thresh1 = Q1 - 1.5*iqr
thresh2 = Q3 + 1.5*iqr
现在我们使用 iqr 获得 thresh1 和 thresh2 的值
现在子集 r_values 小于 thresh1 或大于 thresh2 的行,就是这样
数据[( 数据[‘r_values’] < thresh1 ) |
(数据[‘r_values’] > thresh2)]
现在您成功提取了异常值