异常检测——孤立森林

最新推荐文章于 2024-07-03 11:10:47 发布

shaoyue1234

最新推荐文章于 2024-07-03 11:10:47 发布

阅读量963

点赞数

分类专栏：异常检测

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shaoyue1234/article/details/102772883

版权

异常检测专栏收录该内容

16 篇文章 6 订阅

订阅专栏

异常检测——孤立森林

基础
思想
算法
- 训练阶段
- 评估阶段
参考

基础

1）异常数据只占少量；（2）异常数据特征值和正常数据差别很大。

思想

基于随机森林思想，但是更为简单
假设数据集有N条数据，构建一颗iTree时，从N条数据中均匀抽样(一般是无放回抽样)出ψ个样本出来，作为这颗树的训练样本。在样本中，随机选一个特征，并在这个特征的所有值范围内(最小值与最大值之间)随机选一个值，对样本进行二叉划分，将样本中小于该值的划分到节点的左边，大于等于该值的划分到节点的右边。由此得到一个分裂条件和左、右两边的数据集，然后分别在左右两边的数据集上重复上面的过程，直到数据集只有一条记录或者达到了树的限定高度。

图1 iForest构建iTree示例，异常数据点（17,17）通常离根节点很近

由于异常数据较小且特征值和正常数据差别很大。因此，构建iTree的时候，异常数据离根更近，而正常数据离根更远。一棵iTree的结果往往不可信，iForest算法通过多次抽取样本，构建多棵二叉树。最后整合所有树的结果，并取平均深度作为最终的输出深度，由此计算数据点的异常分值。

算法

训练阶段

在训练阶段，iTree的建立是通过对训练集的递归分隔来建立的，直到所有的样本被孤立，或者树达到了指定的高度。树的高度限制ll与子样本数量ψψ的关系为l=ceiling(log2(ψ))l=ceiling(log2⁡(ψ))，它近似等于树的平均高度。树只生长到平均高度，而不继续生长的原因是，我们只关心路径长度较小的那些点，它们更有可能是异常点，而并不关系路径很长的正常点。详细的训练过程如算法1和算法2所示。
在这里插入图片描述

评估阶段

在这里插入图片描述

在这里插入图片描述

参考

Isolation Forest原理总结
 孤立森林(Isolation Forest)
孤立森林（Isolation Forest）算法简介

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。