异常值是指在数据集中与其他观测值显著不同的值。它们可能是由于测量错误、数据录入错误、设备故障、异常行为等原因引起的。在数据分析和机器学习任务中,异常值的存在可能会导致模型的性能下降,因此发现和处理异常值是数据预处理的重要步骤之一。本文将介绍如何发现数据中的异常值,并提供相应的源代码。
一、发现异常值
- 直方图和箱线图
直方图和箱线图是最常用的发现异常值的可视化工具之一。直方图可以展示数据的分布情况,并且异常值通常会在直方图中显示为分布的尾部或者是与其他数据点明显分离的峰值。箱线图通过展示数据的中位数、上下四分位数和异常值的范围来识别异常值。异常值通常被定义为小于 Q1 - 1.5 * IQR 或大于 Q3 + 1.5 * IQR 的值,其中 Q1 和 Q3 分别是数据的下四分位数和上四分位数,IQR 是四分位数间距。
下面是使用 Python 中的 Matplotlib 库和 Pandas 库绘制直方图和箱线图的示例代码:
import matplotlib.pyplot as plt
import pandas as pd