Isolation Forest论文总结

1.目前异常检测

应用:金融欺诈、网络攻击、星体发现。
目前的方法:聚类、统计分析、分类。
存在的缺点:
① 只关注正常数据;
② 时间耗费大。

异常的特点:
A.量少;
B.特殊

根据异常的特点可以将异常与正常隔离开,时间成本也不高。

得到本文提出的方法:建立二分树隔离异常点,这种方法有如下优势:

  • 只需对少量异常点隔离;
  • 计算量少,没有大量的距离计算;
  • 线性时间复杂度,低空间复杂度;
  • 适用于大数据、高维度。

2.方法概述

根据数据的属性构建树,本文中只采用连续属性,并且每次选择特征都是随机的,用于分割的特征值也是随机选取。如图,对于数据属性集d,随机选取属性q1,并从q1取值的最大值和最小值之间随机取值q,利用q1>p将其分为两部分,然后对着两部分分别进行上述操作,直到结束条件成立。最终用结点在树中的路径长度表示其是否为异常,路径短表示为异常的可能性更大。

进行异常判断时,需要定义一个异常分数s,s的计算公式论文中有列出,其与路径长度是反比的关系。

3.这种方法存在的问题

① Swamping: 表示正常被识别为异常,这种情况发生在正常样本距离异常很近的情况下。
② Masking: 表示异常被识别为正常,这种情况发生在异常聚簇时,需要多步隔离异常时。
论文中采用子采样的方法解决这类问题。子采样一方面控制数据大小,另一方面可以学习到不同的情况,比如可能包含异常也可能不包含。

4.iForest

只有两个参数:采样大小以及树的数目。
训练:子采样->建树->组成森林,论文中将子采样大小设置为256,树的数目设为100。
测试:获取每个实例的异常分数(每棵树的平均路径长度)。

论文后面还提到如果只训练正常样本的话,需要增加子采样的大小才能保证准确率。

论文链接:https://www.researchgate.net/publication/224384174_Isolation_Forest

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值