机器学习之异常检测--孤立森林(Isolation Forests)

机器学习之异常检测–孤立森林(Isolation Forests, iForests)

异常检测在机器学习领域内的应用场景广泛。比如帮助银行参与检测是否洗钱,识别金融欺诈,帮助保险领域识别是否可能骗保以及监测网络入侵等等。

iForests是异常检测中的一种离群检测方法,可以明确地分离异常样本。与随机森林由大量决策树组成一样,iForests也由大量的树组成。iForest算法是一种基于相似度的模型,属于无监督的方法,该算法主要通过从训练数据集中随机选取一个特征,在该特征的最大值最小值之间随机选取一个分裂点,小于分裂点的进入左侧分支,大于或等于分裂点的进入右侧分支;不断重复上述过程直到只剩一个样本或相同样本或达到树的深度限制,然后通过路径长度来表示一个样本点被“孤立”的程度。

路径长度h(x)指样本点二从根节点到外部节点所经过的二叉树的边数,通常路径长度较小的样本被“孤立”的程度高。路径长度h(x)的计算公式为:
在这里插入图片描述其中,h(x)表示数据二从子树(iTree)的根节点到叶节点过程中经过的边的数目,C(T.size)表示在一棵用T.size条样本数据构建的二叉树的平均路径长度。C(n)的计算公式为:
在这里插入图片描述其中,n为样本个数,H(n-1)可用ln(i)+0.577 215 664 9(欧拉常数)估算,以同样的方式构建包含多棵iTree ,则样本的“孤立”程度即可基于路径长度被检测出来,可以通过S(x,n)分值判断。定义如下:
在这里插入图片描述

其中,E (h(x))是样本点二在iForest中所有孤立树的路径长度的平均值,n表示单棵iTree的训练样本数。

参考文献:
周志华.《机器学习》.北京:清华大学出版社

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值