多维数据中的离群点检测

雷古小狮子

已于 2024-07-01 16:39:58 修改

阅读量311

点赞数 3

文章标签：机器学习 python

于 2024-07-01 16:30:04 首次发布

本文链接：https://blog.csdn.net/qq_45876576/article/details/140104184

版权

多维数据中的离群点检测是一个复杂的问题，因为随着数据维度的增加，传统的基于统计的方法可能不再适用。以下是一些适用于多维数据的离群点检测方法：

Isolation Forest（孤立森林）：这是一种基于树的算法，通过随机选择特征和切分点来“隔离”数据点。在多维数据集中，这种方法能够有效地识别离群点。
PCA（主成分分析）：PCA是一种降维技术，可以用来识别数据中的异常模式。通过将数据映射到主成分空间并观察数据点的分布，可以识别出那些远离主成分分布的离群点。
Local Outlier Factor（局部离群因子，LOF）：LOF算法通过比较数据点与其邻近点的局部密度来识别离群点。在多维数据中，这种方法可以有效地识别出那些局部密度较低的点。
One-Class SVM（单类支持向量机）：这种方法假设数据是从一个单一的类别中提取的，并通过学习数据的边界来识别那些远离这个边界的离群点。
AutoEncoder（自编码器）：自编码器是一种基于神经网络的方法，它尝试学习数据的有效表示。如果某个数据点在重构过程中误差较大，可以认为它是离群点。
Feature Bagging（特征装袋）：这是一种集成方法，通过构建多个基模型来识别离群点，每个基模型都使用数据的一个随机子集。
LSCP（局部协方差相似性投影）：这种方法通过计算数据点之间的局部协方差相似性来识别离群点。
XGBOD（XGBoost Outlier Detection）：这是一种基于XGBoost的离群点检测方法，它利用梯度提升决策树的强大能力来识别异常。
箱型图：虽然箱型图通常用于一维数据，但它也可以扩展到多维数据，通过可视化数据的分布来识别离群点。
HBOS（Histogram-Based Outlier Score）：这种方法基于数据的直方图分布来计算离群点得分。

每种方法都有其优势和局限性，选择哪种方法取决于数据集的特点和业务需求。在实际应用中，可能需要结合多种方法来更准确地识别离群点。

Local Outlier Factor（局部离群因子，LOF）

from sklearn.neighbors import LocalOutlierFactor
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

data = pd.read_csv('data.csv')
X = data.drop(['name','time'], axis=1)

# 创建LOF模型
lof = LocalOutlierFactor(n_neighbors=5)

# 拟合模型并预测离群点
y_pred = lof.fit_predict(X)
result = []

# 打印每个数据点的LOF得分和离群点预测结果，并绘制散点图
for i, (score, pred) in enumerate(zip(lof.negative_outlier_factor_, y_pred)):
    print(f"数据点{i+1} - LOF得分: {score:.2f}, 预测结果: {'离群点' if pred == -1 else '正常点'}")
    if pred == -1:
        result.append(i+1)

print(result)
X.iloc[result]