异常检测1——python使用KNN模型进行异常检测

呆萌的代Ma

已于 2022-03-22 13:14:33 修改

阅读量3.1k

点赞数 2

分类专栏：特征工程 python 机器学习文章标签： python 深度学习开发语言

于 2021-12-19 17:40:38 首次发布

本文为CSDN博主"呆萌的代Ma"原创文章，转载请注明博客链接：https://blog.csdn.net/weixin_35757704/

本文链接：https://blog.csdn.net/weixin_35757704/article/details/122026840

版权

python 同时被 3 个专栏收录

593 篇文章 40 订阅

订阅专栏

特征工程

38 篇文章 30 订阅

订阅专栏

机器学习

36 篇文章 9 订阅

订阅专栏

pyod github项目地址：https://github.com/yzhao062/pyod

pyod 文档地址：https://pyod.readthedocs.io/en/latest/

数据源：https://github.com/zrnsm/pyculiarity/blob/master/tests/raw_data.csv

算法思路

使用KNN进行异常检测的算法思路有两种：

思路1：

把异常检测看做是二分类任务，正常样本就是0，异常样本是1
直接用KNN的分类器进行建模（例sklearn使用：KNeighborsClassifier）

这也是在进行KNN异常检测复现时常见的流程

思路2：

因为大量样本都是正样本，只有极少数是负样本，因此我们可以建立几个类别，用城墙把这几个类别围起来，城墙里面的都是正样本，城墙外面的就是负样本
因此KNN会拟合已有数据，分成几个类，然后计算每个点到类的簇中心的聚类（神似聚类），不断迭代优化
这样我们新来一个样本点，直接计算它离每个簇中心的距离，一定范围内则为正样本，范围外则为异常样本（这个范围由算法拟合而出）

代码示例

from pyod.models.knn import KNN  # 使用KNN异常检测
import pandas as pd


def get_data():
    data_df = pd.read_csv("raw_data.csv", index_col=0)
    return data_df


if __name__ == '__main__':
    series_df = get_data()
    anomaly_detection_model = KNN()
    anomaly_detection_model.fit(series_df['count'].values.reshape(-1, 1))
    y_train_pred = anomaly_detection_model.labels_  # 得到数据上的分类标签（0：正常值, 1：异常值）
    y_train_scores = anomaly_detection_model.decision_scores_  # 返回训练数据上的异常值，分值越大越异常

参考文章

Python异常检测包：PyOD：https://www.biaodianfu.com/pyod.html

呆萌的代Ma

关注

2
点赞
踩
23

收藏

觉得还不错? 一键收藏
打赏
3
评论
异常检测1——python使用KNN模型进行异常检测

pyod github项目地址：https://github.com/yzhao062/pyodpyod 文档地址：https://pyod.readthedocs.io/en/latest/数据源：https://github.com/zrnsm/pyculiarity/blob/master/tests/raw_data.csv代码示例from pyod.models.knn import KNN # 使用KNN异常检测import pandas as pddef get_data()
复制链接

扫一扫