异常检测及其分布集成

Liao_Wenzhe

已于 2022-04-06 19:52:15 修改

阅读量415

点赞数 1

分类专栏：机器学习与数据挖掘分布式数据研发文章标签：大数据

于 2021-08-16 15:09:39 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Liao_Wenzhe/article/details/119732579

版权

机器学习与数据挖掘同时被 2 个专栏收录

21 篇文章 1 订阅

订阅专栏

分布式数据研发

7 篇文章 1 订阅

订阅专栏

本文介绍了如何根据数据分布选择异常检测算法，如聚类和孤立森林的应用，强调了算法集成的重要性，如多模型投票和动态分类器选择。同时，着重讲解了SUOD在异常检测中的集成加速技术，包括数据降维、监督学习替代和系统级优化。

摘要由CSDN通过智能技术生成

异常检测算法种类繁多，包括聚类，树，统计分布，机器学习，深度学习等多种形式，下面对一些常见问题进行了自己的总结：

1.如何选型？

主要看算法原理和数据分布：

如下图所示，第一二张图的异常点容易成一个团，形成局部离群点，而图三则是全局离群点，不同的离群方式应当采用不同的算法，比如图1，2用聚类，图3用孤立森林。

一个非常好用的异常检测工具包：https://github.com/yzhao062/pyod

2.算法集成。

算法种类多，有时候单一算法并不能满足要求，需要对多算法做测试甚至进行集成，以提高性能。

如下图所示的多种集成方式，并不能简单的做一个投票或者均值就进行集成学习，因为全局均值可能会对某些模型输出的异常平均掉。

甚至复杂的还有动态分类器选择，在进行预测的时候，选择训练集中相似的近似空间，并选择在这个相似的近似空间中最好的算法或者是集成算法。

集成工具介绍：https://github.com/yzhao062/combo

动态集成：https://github.com/yzhao062/LSCP

combo:「Python机器学习模型合并工具库」简介

3.异常检测集成加速。

异常检测的集成在很多情况下能对结果有很大的帮助，但是带了的事时间复杂度的提升，如何在有限的时间内尽可能快的进行集成的异常检测，suod很好的解决了这个问题。

suod在3个纬度进行了异常检测集成的加速：

1.数据维度：用了Johnson-Lindenstrauss (JL) projection进行数据降维。

2.模型维度：在预测的时候，如果耗时过高，就用有监督学习进行训练数据异常分数的拟合，然后用监督学习替代非监督学习进行预测。

3.系统维度：用了耗时预测对算法进行排列，将新的排列发到不同的worker，以防止出现单一worker的拖后腿

preview

preview

详见：GitHub - yzhao062/SUOD: (MLSys' 21) An Acceleration System for Large-scare Unsupervised Heterogeneous Outlier Detection (Anomaly Detection)

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
异常检测及其分布集成

异常检测算法种类繁多，包括聚类，树，统计分布，机器学习，深度学习等多种形式，下面对一些常见问题进行了自己的总结：1.如何选型？主要看算法原理和数据分布：如下图所示，第一二张图的异常点容易成一个团，形成局部离群点，而图三则是全局离群点，不同的离群方式应当采用不同的算法，比如图1，2用聚类，图3用孤立森林。一个非常好用的异常检测工具包：https://github.com/yzhao062/pyod2.算法集成。算法种类多，有时候单一算法并不能满足要求，需要对多算法做测试甚至进行集成，以
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。