2024年Go最全用PyOD工具库进行「异常检测」_pyod异常检测(3)，2024年最新2024年京东Golang岗面试必问

2401_84904408

于 2024-05-14 02:26:38 发布

阅读量731

点赞数 12

分类专栏：程序员文章标签： go 学习面试

本文链接：https://blog.csdn.net/2401_84904408/article/details/138828560

版权

程序员专栏收录该内容

60 篇文章 0 订阅

订阅专栏

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Go语言开发知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以戳这里获取

因为现阶段所有文档与实例全部为英文，为了方便大家使用，特别创作了这篇中文使用指南，欢迎转载（无需授权）。

1. 背景概览（package overview）

PyOD提供了约20种异常检测算法（详见图1），部分算法介绍可以参考「数据挖掘中常见的「异常检测」算法有哪些？」或异常检测领域的经典教科书[7]。同时该工具库也包含了一系列辅助功能，包括数据可视化及结果评估等：

图1. PyOD中所包括的算法一栏

工具库相关的重要信息汇总如下：

Github地址: pyod
PyPI下载地址: pyod
文档与API介绍（英文）: Welcome to PyOD documentation!
Jupyter Notebook示例（notebooks文件夹）: Binder (beta)
JMLR论文: PyOD: A Python Toolbox for Scalable Outlier Detection

PyOD提供两种非常简单的安装方法。我个人推荐使用pip进行安装：

pip install pyod

GitHub安装：pyod
PyPI安装：pyod

使用其包含的算法也很简单：每个算法均有相对应的例子，方便使用者学习了解API（示例文件夹），比如LOF算法的对应例子就叫做lof_example.py，非常容易找到。除此之外，作者还提供了**可互动的Jupyter Notebook示例**，无需安装，直接从浏览器打开notebook就可以尝试PyOD工具库。

2. API介绍与实例（API References & Examples）

特别需要注意的是，异常检测算法基本都是无监督学习，所以只需要X（输入数据），而不需要y（标签）。PyOD的使用方法和Sklearn中聚类分析很像，它的检测器（detector）均有统一的API。所有的PyOD检测器clf均有统一的API以便使用，完整的API使用参考可以查阅（API CheatSheet - pyod 0.6.8 documentation）：

fit(X): 用数据X来“训练/拟合”检测器clf。即在初始化检测器clf后，用X来“训练”它。
fit_predict_score(X, y): 用数据X来训练检测器clf，并预测X的预测值，并在真实标签y上进行评估。此处的y只是用于评估，而非训练
decision_function(X): 在检测器clf被fit后，可以通过该函数来预测未知数据的异常程度，返回值为原始分数，并非0和1。返回分数越高，则该数据点的异常程度越高
predict(X): 在检测器clf被fit后，可以通过该函数来预测未知数据的异常标签，返回值为二分类标签（0为正常点，1为异常点）
predict_proba(X): 在检测器clf被fit后，预测未知数据的异常概率，返回该点是异常点概率

当检测器clf被初始化且fit(X)函数被执行后，clf就会生成两个重要的属性：

decision_scores: 数据X上的异常打分，分数越高，则该数据点的异常程度越高
labels_: 数据X上的异常标签，返回值为二分类标签（0为正常点，1为异常点）

不难看出，当我们初始化一个检测器clf后，可以直接用数据X来“训练”clf，之后我们便可以得到X的异常分值（clf.decision_scores）以及异常标签（clf.labels_）。当clf被训练后（当fit函数被执行后），我们可以使用decision_function()和predict()函数来对未知数据进行训练。

在有了背景知识后，我们可以使用PyOD来实现一个简单的异常检测实例：

from pyod.models.knn import KNN   # imprt kNN分类器

# 训练一个kNN检测器
clf_name = 'kNN'
clf = KNN() # 初始化检测器clf
clf.fit(X_train) # 使用X\_train训练检测器clf

# 返回训练数据X\_train上的异常标签和异常分值
y_train_pred = clf.labels_  # 返回训练数据上的分类标签 (0: 正常值, 1: 异常值)
y_train_scores = clf.decision_scores_  # 返回训练数据上的异常值 (分值越大越异常)

# 用训练好的clf来预测未知数据中的异常值
y_test_pred = clf.predict(X_test)  # 返回未知数据上的分类标签 (0: 正常值, 1: 异常值)
y_test_scores = clf.decision_function(X_test)  # 返回未知数据上的异常值 (分值越大越异常)

不难看出，PyOD的API和scikit-learn非常相似，只需要几行就可以得到数据的异常值。当检测器得到输出后，我们可以用以下代码评估其表现，或者直接可视化分类结果（图2）。

# 评估预测结果
print("\nOn Test Data:")
evaluate_print(clf_name, y_test, y_test_scores)

# 可视化
visualize(clf_name, X_train, y_train, X_test, y_test, y_train_pred,
    y_test_pred, show_figure=True, save_figure=False)

图2. 预测结果（右图）与真实结果（左图）对比

3. 相关教程、资源与未来计划

除此之外，不少网站都曾提供过如何使用PyOD的教程，比较权威的有：

Analytics Vidhya: An Awesome Tutorial to Learn Outlier Detection in Python using PyOD Library
KDnuggets: Intuitive Visualization of Outlier Detection Methods
awesome-machine-learning: General-Purpose Machine Learning

根据开发团队的计划（Todo & Contribution Guidance），很多后续功能会被逐步添加：

支持GPU运算
支持conda安装
增加中文文档

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

//bbs.csdn.net/topics/618658159)**

2401_84904408

关注

12
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
2024年Go最全用PyOD工具库进行「异常检测」_pyod异常检测(3)，2024年最新2024年京东Golang岗面试必问

不难看出，当我们初始化一个检测器clf后，可以直接用数据X来“训练”clf，之后我们便可以得到X的异常分值（clf.decision_scores）以及异常标签（clf.labels_）。当clf被训练后（当fit函数被执行后），我们可以使用decision_function()和predict()函数来对未知数据进行训练。除此之外，作者还提供了**的使用方法和Sklearn中聚类分析很像，它的检测器（detector）均有统一的API。检测器clf均有统一的API以便使用，完整的API使用参考可以查阅（
复制链接

扫一扫

专栏目录