孤立森林(Isolation Forest)

最新推荐文章于 2024-06-03 09:33:25 发布

extremebingo

最新推荐文章于 2024-06-03 09:33:25 发布

阅读量8.9w

点赞数 71

分类专栏： machine learning algorithm

本文链接：https://blog.csdn.net/extremebingo/article/details/80108247

版权

背景

现有的异常检测方法主要是通过对正常样本的描述，给出一个正常样本在特征空间中的区域，对于不在这个区域中的样本，视为异常。这些方法的主要缺点是，异常检测器只会对正常样本的描述做优化，而不会对异常样本的描述做优化，这样就有可能造成大量的误报，或者只检测到少量的异常。

异常的两个特点：异常数据只占很少量、异常数据特征值和正常数据差别很大。

孤立森林，不再是描述正常的样本点，而是要孤立异常点，由周志华教授等人于2008年在第八届IEEE数据挖掘国际会议上提出。

先了解一下该算法的动机。目前学术界对异常(anomaly detection)的定义有很多种，在孤立森林(iForest)中，异常被定义为“容易被孤立的离群点 (more likely to be separated)”，可以将其理解为分布稀疏且离密度高的群体较远的点。在特征空间里，分布稀疏的区域表示事件发生在该区域的概率很低，因而可以认为落在这些区域里的数据是异常的。孤立森林是一种适用于连续数据(Continuous numerical data)的无监督异常检测方法，即不需要有标记的样本来训练，但特征需要是连续的。对于如何查找哪些点容易被孤立(isolated)，iForest使用了一套非常高效的策略。在孤立森林中，递归地随机分割数据集，直到所有的样本点都是孤立的。在这种随机分割的策略下，异常点通常具有较短的路径。

直观上来讲，那些密度很高的簇是需要被切很多次才能被孤立，但是那些密度很低的点很容易就可以被孤立。这里参考下面的图进行说明。

这里写图片描述

在图(a)和图(b)中，可以看到，正常点 $x_i$ 需要更多次的分割才能被孤立，而异常点 $x_o$ 需要较少的分割次数就能被孤立。这里的分割方式采用的是，随机选择一个特征以及拆分的值(这个值位于该特征的最小值和最大值之间)。图(c)展示了异常点的平均路径长度小于正常点的路径长度。

isolation tree (iTree)

定义：假设 $T$ 是孤立树的一个节点，它要么是没有子节点的叶子节点，要么是只有两个子节点 $(T_l,T_r)$ 的内部节点。每一步分割，都包含特征 $q$ 和分割值 $p$ ，将 $q<p$ 的数据分到 $T_l$ ，将 $q \geq p$ 的数据分到 T

最低0.47元/天解锁文章

extremebingo

关注

71
点赞
踩
329

收藏

觉得还不错? 一键收藏
26
评论
孤立森林(Isolation Forest)

背景现有的异常检测方法主要是通过对正常样本的描述，给出一个正常样本在特征空间中的区域，对于不在这个区域中的样本，视为异常。这些方法的主要缺点是，异常检测器只是正常样本的最优描述，但是对于检测异常并不是最优的，有可能造成大量的误报，或者只检测到少量的异常。异常的两个特点：异常数据只占很少量、异常数据特征值和正常数据差别很大。孤立森林，不再是描述正常的样本点，而是要孤立异常点，由周志华教授...
复制链接

扫一扫