用PyOD工具库进行「异常检测」_pyod异常检测，赶紧收藏

最新推荐文章于 2024-04-25 12:35:09 发布

2401_84281594

最新推荐文章于 2024-04-25 12:35:09 发布

阅读量919

点赞数 10

分类专栏：程序员文章标签：机器学习人工智能深度学习

本文链接：https://blog.csdn.net/2401_84281594/article/details/137740849

版权

程序员专栏收录该内容

181 篇文章 2 订阅

订阅专栏

decision_scores: 数据X上的异常打分，分数越高，则该数据点的异常程度越高
labels_: 数据X上的异常标签，返回值为二分类标签（0为正常点，1为异常点）

不难看出，当我们初始化一个检测器clf后，可以直接用数据X来“训练”clf，之后我们便可以得到X的异常分值（clf.decision_scores）以及异常标签（clf.labels_）。当clf被训练后（当fit函数被执行后），我们可以使用decision_function()和predict()函数来对未知数据进行训练。

在有了背景知识后，我们可以使用PyOD来实现一个简单的异常检测实例：

from pyod.models.knn import KNN # imprt kNN分类器

训练一个kNN检测器

clf_name = ‘kNN’
clf = KNN() # 初始化检测器clf
clf.fit(X_train) # 使用X_train训练检测器clf

返回训练数据X_train上的异常标签和异常分值

y_train_pred = clf.labels_ # 返回训练数据上的分类标签 (0: 正常值, 1: 异常值)
y_train_scores = clf.decision_scores_ # 返回训练数据上的异常值 (分值越大越异常)

用训练好的clf来预测未知数据中的异常值

y_test_pred = clf.predict(X_test) # 返回未知数据上的分类标签 (0: 正常值, 1: 异常值)
y_test_scores = clf.decision_function(X_test) # 返回未知数据上的异常值 (分值越大越异常)

不难看出，PyOD的API和scikit-learn非常相似，只需要几行就可以得到数据的异常值。当检测器得到输出后，我们可以用以下代码评估其表现，或者直接可视化分类结果（图2）。

评估预测结果

print(“\nOn Test Data:”)
evaluate_print(clf_name, y_test, y_test_scores)

可视化

visualize(clf_name, X_train, y_train, X_test, y_test, y_train_pred,
y_test_pred, show_figure=True, save_figure=False)

图2. 预测结果（右图）与真实结果（左图）对比

3. 相关教程、资源与未来计划

除此之外，不少网站都曾提供过如何使用PyOD的教程，比较权威的有：

Analytics Vidhya: An Awesome Tutorial to Learn Outlier Detection in Python using PyOD Library
KDnuggets: Intuitive Visualization of Outlier Detection Methods
awesome-machine-learning: General-Purpose Machine Learning

根据开发团队的计划（Todo & Contribution Guidance），很多后续功能会被逐步添加：

支持GPU运算
支持conda安装
增加中文文档

除此之外，开发团队也整理异常检测相关的资源汇总（课程、论文、数据等），非常值得关注：anomaly-detection-resources

总结来看，PyOD是当下最为流行的异常检测工具库，且处于持续更新中。建议大家尝试、关注并参与到PyOD的开发当中。有鉴于功能可能会不断更新，请以GitHub版本为准。

引用PyOD非常方便，可参考如下：

Zhao, Y., Nasrullah, Z. and Li, Z., 2019. PyOD: A Python Toolbox for Scalable Outlier Detection. Journal of machine learning research (JMLR), 20(96), pp.1-7.

或者

@article{zhao2019pyod,
author = {Zhao, Yue and Nasrullah, Zain and Li, Zheng},
title = {PyOD: A Python Toolbox for Scalable Outlier Detection},
journal = {Journal of Machine Learning Research},
year = {2019},
volume = {20},
number = {96},
pages = {1-7},
url = {http://jmlr.org/papers/v20/19-011.html}
}

参考

^https://github.com/topics/data-mining
^Ramakrishnan, J., Shaabani, E., Li, C. and Sustik, M.A., 2019. Anomaly Detection for an E-commerce Pricing System. arXiv preprint arXiv:1902.09566.
^Zhao, Y., Nasrullah, Z., Hryniewicki, M.K. and Li, Z., 2019, May. LSCP: Locally selective combination in parallel outlier ensembles. In Proceedings of the 2019 SIAM International Conference on Data Mining (pp. 585-593). Society for Industrial and Applied Mathematics.
^Ishii, Y. and Takanashi, M., 2019. Low-cost Unsupervised Outlier Detection by Autoencoders with Robust Estimation. Journal of Information Processing, 27, pp.335-339.
^Klaeger, T., Schult, A. and Oehm, L., 2019. Using anomaly detection to support classification of fast running (packaging) processes. arXiv preprint arXiv:1906.02473.
^Krishnan, S. and Wu, E., 2019. AlphaClean: Automatic Generation of Data Cleaning Pipelines. arXiv preprint arXiv:1904.11827.
^Aggarwal, C.C., 2015. Outlier analysis. In Data mining (pp. 237-263). Springer, Cham.

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Go语言工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Go语言全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。