孤立森林 实现_孤立森林算法介绍,这次终于看懂了

孤立森林(iForest)是一种高效异常检测方法,常用于网络安全、金融欺诈检测等领域。它通过构建孤立树,利用随机超平面分割数据,异常点因分布稀疏而容易被孤立。算法不需要定义数学模型,具有线性时间复杂度。在训练过程中,通过计算每个数据点在树中的平均高度来判断异常,高度较低的点更可能为异常。
摘要由CSDN通过智能技术生成

孤立森林算法应用于网络安全中的攻击检测,金融交易欺诈检测,疾病侦测,和噪声数据过滤等。

1. 孤立森林简介

iForest(IsolationForest)孤立森林是一个基于Ensemble 的快速异常检测方法,具有线性时间复杂度和高精准度,是符合大数据处理要求的state-of-the-art算法。

iForest 适用于连续数据的异常检测,将异常定义为“容易被孤立的离群点”,可以理解为分布稀疏且离密度高的群体较远的点。用统计学来解释,在数据空间里面,分布稀疏的区域表示数据发生在此区域的概率很低,因而可以认为落在这些区域里的数据是异常的。

iForest 即不用定义数学模型也不需要有标记的训练。对于如何查找哪些点是否容易被孤立,iForest 使用了一套非常高效的策略。

假设我们用一个随机超平面来切割数据空间, 切一次可以生成两个子空间。之后我们再继续用一个随机超平面来切割每个子空间,循环下去,直到每子空间里面只有一个数据点为止。直观上来讲,我们可以发现那些密度很高的簇是可以被切很多次才会停止切割,但是那些密度很低的点很容易很早的就停到一个子空间了。

0bb850ac6e8ffcaeb3247319c3079bc4.png

怎么来切这个数据空间是iForest的设计核心思想,这里仅介绍最基本的方法。由于切割是随机的,所以需要用ensemble的方法来得到一个收敛值(蒙特卡洛方法),即反复从头开始切,然后平均每次切的结果。iForest

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值