异常检测-孤立森林(IsolationForest)

一、原理

       孤立森林是以递归方式划分数据集的各个树结构的集合。对于该过程的每一次迭代,都会选择一个随机特征,然后根据在所选特征的最小值和最大值之间随机选择一个值对数据划分。重复此过程,直到对整个数据集进行划分,在森林重形成一个单独的树。一般情况下,异常与根位置之间的路径比正常数据点短的多,因为他们更容易被隔离。

注:可以使用一个涉及平均路径长度的数据点函数来找出异常分数

                                                                                     图片

      换句话说,目的就是不断切割子空间,最终每个子空间只有一个数据点为止,密度比较大的簇需要多次切分才能切分剩余一个数据点,而密度很低的簇很快会被切分为一个数据点,如上图所示:黑色的点为异常点,白色的点为正常点。举个例子如下所示, d最先被分割出来,说明d最有可能异常:

                                                                                    图片

     模型训练阶段如同上述描述的那样,模型测试阶段每一个测试样本的异常分数有平均路径长度得到,平均路径长度是通过孤立森林每一颗树得到

 

二、实现

from sklearn.ensemble import IsolationForest


isolation_forest = IsolationForest(n_estimators=100,  # 使用树的数量
                                   max_samples=256,   # 应该构建树的最大数据点数
                                   contamination=0.1, # 被认为是异常/离群值的估计百分比
                                   random_state=42)   # 随机数生成器

isolation_forest.fit(data)


anomaly_scores = isolation_forest.decision_function(data)


 

参考链接:

1、https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.IsolationForest.html

2、python深度学习异常检测

3、阿里技术-异常检测的N种方法

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值