运用孤立森林异常检测算法，过滤异常数据

最新推荐文章于 2024-09-12 19:38:54 发布

datayx

最新推荐文章于 2024-09-12 19:38:54 发布

阅读量2k

点赞数

原文链接：https://loveai.tech

版权

640?wx_fmt=gif

向AI转型的程序员都关注了这个号👇👇👇

机器学习AI算法工程公众号：datayx

在压力测试和性能分析过程中，通常有两种情形会导致测试结果不准确：

一是由于 JMeter 和 LoadRunner 等工具在启动多线程是有一个爬坡过程，通常需要1-10秒钟左右，这个时间也不会很长。但在这个过程由于线程数量不定，导致了测试数据的可靠性降低。
二是由于现实测试中通常会存在网络异常的情形，极少量的异常值会大大影响对被测对象的性能评估。

在上述场景中，异常的数据与整个测试数据样本相比是很少的一部分，常见的分类算法例如：SVM、逻辑回归等都不合适。而孤立森林算法恰好非常适合上述场景，首先测试数据具备一定的连续性，其次异常数据具备显著的离群特征，最后异常数据的产生是小概率事件，因此，孤立森林算法在网络安全、交易欺诈、疾病监测等方面也有着广泛的应用。

算法简介

孤立森林算法属非监督学习算法，不需要定义参数模型和进行历史训练样本，通过采用多次迭代的方式构建二叉搜索树(Binary Search Tree)，然后将这些二叉树组成森林，默认二叉搜索树的高度为 8，每 100 棵树组成一个森林，每次最多生成 256 个森林。算法主要构建思想如下：

构建二叉树 iTree，首先从训练数据中随机选择 X 个样本，若 iTree 已经达到限定高度或者仅剩一个样本，则算法收敛。否则，递归构建二叉搜索树，将小于当前根结点的样本放入左子结点，将大于当前根结点的样本放入右子结点。

640?wx_fmt=png

构建二叉树森林 iForest，根据样本数据容量迭代重复步骤(1)过程创建二叉搜索树 iTree，并将生成的 iTree 组成二叉树森林。
计算森林中二叉树的路径长度，当二叉树森林 iForest 构建完成后，就可以对样本进行预测了，预测过程就是对二叉搜索树进行递归中序遍历，记录从根结点到叶子结点的路径长度 h(x)。

640?wx_fmt=png

计算离群点偏离值，当森林中所有样本路径长度 h(x) 计算完毕后，通过运用统计学的方法计算得出所有数据样本期望值 E(h(x)) 和方差 S(h(x))，进而得到偏离期望和方差的异常数据点。

常见机器学习聚类算法通常根据空间距离或者密度来寻找异常数据，孤立森林算法独辟蹊径，采用构建二叉树森林再进行中序遍历计算叶子结点平均高度的方式来寻找异常数据，算法实现了对于海量数据的异常检测仅需 O(n) 的线性时间复杂度，能够在短暂的批处理时间间隔内有效检测出离群数据点。

代码获取方式

关注微信公众号 datayx 然后回复异常检测即可获取。

AI项目体验地址 https://loveai.tech

数据说明

本项目数据由 JMeter 压测工具生成，包括 CPU.csv 和 HEC.csv 两部分，部分数据形态如下：

640?wx_fmt=png

640?wx_fmt=png

运行程序：

python Detect.py

初始数据折线图

640?wx_fmt=jpeg

初始数据散点图

640?wx_fmt=jpeg

过滤后数据折线图

640?wx_fmt=jpeg

过滤后数据散点图

640?wx_fmt=jpeg

阅读过本文的人还看了以下：

不断更新资源

深度学习、机器学习、数据分析、python

搜索公众号添加： datayx

640?wx_fmt=jpeg

长按图片，识别二维码，点关注

AI项目体验

https://loveai.tech

640?wx_fmt=png

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

datayx CSDN认证博客专家 CSDN认证企业博客

码龄13年

55: 原创

2万+: 周排名

3231: 总排名

199万+: 访问

: 等级

1万+: 积分

1531: 粉丝

1182: 获赞

401: 评论

1万+: 收藏

私信

关注

热门文章

最新评论

yolo5纸张卡片顶点检测，实现任意倾斜角度较正
GMC324: 大佬求数据集
评论赠书 | 关于信息流推荐算法，来自大厂专家的全面总结
杀戮苍生: 非常喜欢这篇博客！博主的写作风格简洁明了，让人一目了然。文章内容丰富，涵盖了很多实用的知识点，对我来说非常有帮助。尤其是博主在文章中提供了很多实际操作的步骤和技巧，让我能够更好地应用所学的知识。同时，博主的配图也很精美，更加生动地展示了文章中的内容。总之，非常感谢博主的分享，期待博主能够继续输出这样优质的好文。
评论赠书 | 关于信息流推荐算法，来自大厂专家的全面总结
埋雷炸弹人: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，期待博主持续带来更多好文。优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，期待博主持续带来更多好文
真实教育场景手写/表格/公式OCR数据集
柳折遥~: 请问数据集可以发给我吗，谢谢
IQA图像质量评价数据集介绍(LIVE、TID2013、CSIQ、LIVEC、KonIQ-10K)
哈哈哈MSE: 你好，你分享的链接全部过期了哦能再重新传一下吗

最新文章

2024

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。