什么是离群值？如何检测？

Font Tian

已于 2025-01-03 16:45:04 修改

阅读量1.6k

点赞数 15

分类专栏：剑指数据科学 # 机器学习基础汇总文章标签： python 离群值数据分析数据科学异常检测

于 2025-01-03 16:19:32 首次发布

署名-非商业使用-禁止转载

本文链接：https://blog.csdn.net/FontThrone/article/details/144912842

版权

剑指数据科学同时被 2 个专栏收录

53 篇文章

订阅专栏

机器学习基础汇总

31 篇文章

订阅专栏

基础概念

什么是离群值？

Outliers（离群值），也称逸出值，是指在数据集中显著偏离其他数据点的值。这些值与大多数观测值之间存在明显的差异，可能是由于异常情况、测量错误、数据输入错误或真实的罕见现象导致的。

特征：

数值偏离： 与其他数据点相比，数值异常大或异常小。
分布偏差： 数据分布上表现为长尾或极端值。
影响分析： 离群值可能会显著影响均值、标准差、回归分析等统计模型的结果。

异常值和离群值有差异吗？

异常值和离群值虽然常常互换使用，但在统计学和数据分析中有细微差异：

异常值 (Outlier)
- 定义：明显偏离数据集中的大部分样本点的数据值。
- 特征：可能是由数据采集错误、录入错误或罕见事件导致的。
- 处理方式：常被视为错误数据，需要修正或删除。
- 例子：如果大多数人的年龄在20-60岁之间，但某个记录显示年龄为150岁，这可能是异常值。
离群值 (Anomaly)
- 定义：在给定上下文或模式中表现异常的数据点。
- 特征：可能反映某些特殊或罕见事件，并不一定是错误数据。
- 处理方式：需要进一步分析，可能代表异常行为（如欺诈检测中的异常交易）。
- 例子：信用卡交易中，某人突然进行一系列大额支付，可能是离群值，但需要进一步分析是否欺诈。

关键区别：

数据质量方面：异常值通常视为错误或无效数据，而离群值可能是有效但罕见的数据。
分析目的：异常值常需清理，而离群值常需分析。
背景依赖性：离群值取决于具体场景和分析目标，而异常值通常是整体数据分布之外的数据点。

示例对比：

假设你分析某城市的人口收入分布：

异常值：某些收入记录为负值或过高值（如10亿），可能是数据录入错误。
离群值：年收入100万的人可能是高收入群体，尽管罕见，但可能是有效数据。

总结：

异常值：主要关注数据错误，倾向于剔除或修复。
离群值：关注模式异常，倾向于分析背后的原因。

离群值的检测与处理

离群值的检测方法：

可视化方法：
- 箱线图（Boxplot）： 使用 IQR（四分位距）来标记异常点。
- 散点图（Scatter Plot）： 可直观显示数据的分布和异常值。
统计方法：
- Z-Score 方法： 超过特定标准差的值（如±3）可视为离群值。
- IQR 方法： 低于 Q1 - 1.5×IQR 或高于 Q3 + 1.5×IQR 的值被视为异常点。
机器学习方法：
- 孤立森林（Isolation Forest）
- 局部异常因子（Local Outlier Factor, LOF）

处理方法：

删除： 如果离群值是明显的错误或噪声，可以将其删除。
替换： 使用中位数或均值替代异常值。
独立分析： 如果离群值是真实的罕见现象，可以单独建模分析。
变换： 数据转换（如对数变换）减少异常值的影响。

示例：

数据集：[10, 12, 11, 13, 300, 14, 15]
这里的 300 就可能是一个离群值。

离群值的检测和处理是数据分析和机器学习预处理中重要的步骤，尤其是在确保模型鲁棒性和预测准确性方面至关重要。

实操：如何使用Python检测离群值？

在 Python 中，可以通过多种方法寻找离群值，以下是常用的几种方法：

1. 使用 Z-Score 检测离群值

原理：

Z-Score 衡量每个数据点与均值之间的标准差距离。通常绝对值大于 3 的点被认为是离群值。

代码示例：

import numpy as np
import pandas as pd

# 示例数据
data = [10, 12, 11, 13, 300, 14, 15]
df = pd.DataFrame(data, columns=['value'])

# 计算 Z-Score
df['z_score'] = (df['value'] - df['value'].mean()) / df['value'].std()

# 筛选离群值
outliers = df[np.abs(df['z_score']) > 3]
print(outliers)

2. 使用 IQR（四分位距）检测离群值

原理：

IQR = Q3 - Q1，判断是否超出正常范围：

下界：Q1 - 1.5 * IQR
上界：Q3 + 1.5 * IQR

代码示例：

import numpy as np
import pandas as pd

# 示例数据
data = [10, 12, 11, 13, 300, 14, 15]
df = pd.DataFrame(data, columns=['value'])

# 计算 IQR
Q1 = df['value'].quantile(0.25)
Q3 = df['value'].quantile(0.75)
IQR = Q3 - Q1

# 确定边界
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# 筛选离群值
outliers = df[(df['value'] < lower_bound) | (df['value'] > upper_bound)]
print(outliers)

3. 使用散点图或箱线图可视化离群值

代码示例：

import matplotlib.pyplot as plt

# 绘制箱线图
plt.boxplot(data)
plt.title('Boxplot for Outlier Detection')
plt.show()

4. 使用 sklearn 的 Isolation Forest 算法

原理：

基于树结构划分数据，通过异常样本在树中被孤立的速度判断是否为异常值。

代码示例：

from sklearn.ensemble import IsolationForest

# 数据
data = [[10], [12], [11], [13], [300], [14], [15]]

# 建立模型
clf = IsolationForest(contamination=0.1, random_state=42)
clf.fit(data)

# 预测 (-1 为异常值)
predictions = clf.predict(data)

# 输出异常点
outliers = [data[i][0] for i in range(len(data)) if predictions[i] == -1]
print(outliers)

5. 使用 sklearn 的 Local Outlier Factor (LOF)

代码示例：

from sklearn.neighbors import LocalOutlierFactor

# 数据
data = [[10], [12], [11], [13], [300], [14], [15]]

# 建立模型
lof = LocalOutlierFactor(n_neighbors=2)
predictions = lof.fit_predict(data)

# 输出异常点
outliers = [data[i][0] for i in range(len(data)) if predictions[i] == -1]
print(outliers)