【数据处理方法】孤立森林(Isolation Forest, iForest)

最新推荐文章于 2025-05-19 17:29:00 发布

Lin__coln

最新推荐文章于 2025-05-19 17:29:00 发布

阅读量3k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：数据处理文章标签：算法数据分析

本文链接：https://blog.csdn.net/Lin__coln/article/details/126597668

数据处理专栏收录该内容

3 篇文章

订阅专栏

孤立森林(iForest)是一种专门用于进行异常值检测的算法，它是一种基于ensemble的方法，相对于基于密度或者距离的方法，如LOF、KNN等，iForest不需要计算距离和密度，因此，iForest具有线性的时间复杂度(O(n)),非常适合用于大数据中进行异常检测。此外，iForest是被设计出来专门用于进行异常检测的，而很多基于密度或距离的方法，进行异常检测只是它们附带的作用，因此就准确率来说，iForest也具有一定的优势。

一. iForest简介

iForest最早由周志华团队提出，原文如下

Liu F T, Ting K M, Zhou Z H. Isolation forest[C]//2008 eighth ieee international conference on data mining. IEEE, 2008: 413-422.

在iForest中，异常点指的是“和其他点的模式相差很大的点”，而isolation，则是指“将这样的异常值从正常值中孤立出去”。

相对于其他方法，iForest有以下几个特点：

1.基于ensemble：iForest由iTree，即孤立树组成，运行时通过训练大量iTree，来组成iForest。

2.子采样(sub-sampling)： iForest中每棵iTree都是随机选择部分的样本，来建立Partial models，这样在节约时间成本的同时，还可以提高算法的准确率；同时，还通过训练大量iTree来保证算法性能收敛。

3.可分布式进行：由于是基于ensemble的方法，所以可部署在分布式系统上来加速运算。

因此，iForest具有以下优点：

1.可处理大数据：由于时间复杂度低，iForest可用于大数据量的异常检测，且无需太高的空间复杂度。

2.对高维数据适用：由于子采样和Partial models的使用，iForest可用于处理高维的数据，这是其他方法较难以运用的。

二. iForest思想

iForest的核心思想就是，由于异常值的特征易于正常值，因此总是最容易被孤立出去。假如我们用一个随机超平面对数据空间进行切割，从而获得两个子空间（类似于切蛋糕），

这样不断切割，直到每个子空间中都只有一个数据。这时，从直觉上，我们也可以判断，正常值（密度较高的簇）需要较高的切割次数才能分离开来，而异常值（密度较低的簇）则只需进行较少的次数就可以被分开。

如图，左边（ $x_{i}$ ）为正常值，右边（ $x_{0}$ ）为异常值，可以看到， $x_{i}$ 使用了较多的次数才划分开来，而 $x_{0}$ 则只使用了较少次数。

三. iForest过程

结合上述内容，iForest的主要过程，分为以下两个阶段：

1.训练iForest：从数据集中随机进行子采样，训练大量iTree组成iForest，统计各数据的平均路径长度。

2.计算异常分数：根据各数据的平均路径长度，计算异常分数，从而判断是否为异常值。

1.训练iForest：

该阶段的步骤如下：

(1) 从数据中随机选择 $\varphi$ 个点作为子采样，放入树的根节点。

(2) 随机选择一个特征维度q，在当前节点的数据中随机产生一个切割点p（p的值域为当前节点数据中q的最小值和最大值之间）。

(3) 以该切割点生成超平面，将当前节点数据空间划分成两个子空间：将在q上小于p的数据放于当前节点的左子节点，将大于等于p的数据放在当前节点的右子节点。

(4) 在子节点中递归调用步骤(2)和(3)，不断构造新的子节点，直到子节点中只有一个数据或已达到限定高度。

(5) 循环(1)到(4)，直到生成 t 棵 iTree。

伪代码如下：

这一步代表的是孤立森林的建立，X作为输入数据，t代表iTree的数目， $\varphi$ 代表iTree子采样的数据数目。对于一棵iTree，限制每棵树的树高l =ceiling( $log_{2}\varphi$ )，这里限制树高是因为算法目的是为了检测异常值，因此我们只关心那些路径长度较短的点。

这一步代表每棵iTree的训练过程

这一步代表路径长度的计算，这里的c是一个调整项，我们放在下一部分来给出公式。

值得注意的是，控制子采样的规模，可以有效的避免Swamp和Mask两个现象。

Swamp：指错误地将正常值识别为异常值。

Mask：指错误地将异常值识别为正常值。

如图，假如这是一堆原始数据，红色的为异常值，可以看到，有两簇异常值过于密集，所以当直接将全部数据用于训练时，较难将其识别出。

而当我们使用子采样时，可以看到，在较少的采样规模下，就可以有效的识别异常值，同时，大量iTree的Ensemble也可以确保算法性能稳定，因此，在适当的情况下，每棵iTree使用较小的规模进行子采样建立Partial models会提高算法的性能。

2. 计算异常分数

首先我们，对于每个数据x，我们计算其在森林中的平均路径长度 $E(h(x)))$ ，然后，计算其异常分数

$S(x,\varphi )=2^{-\frac{Eh(x))}{c(\varphi ))}}$

其中，

$c(\varphi )=2H(\varphi -1)-2(\varphi -1)/\varphi ,\varphi >2$

$1,\varphi =2$

$0,otherwise$

这里的c既是第一步所提到的调整项。 $H(i)$ 为调和数，等于 $ln(i)+0.5772156649$ 。由上可得，当S越大时，数据异常程度越大，一般地：

如果异常得分接近 1，那么一定是异常点；

如果异常得分远小于 0.5，那么一定不是异常点；

如果异常得分所有点的得分都在 0.5 左右，那么样本中很可能不存在异常点。

通常，当 $s\geq 0.6$ 时，就可认为其是潜在的异常点，也可根据实际情况调整。

同样的，也可以直接用平均路径长度判断异常程度，平均路径长度越短，异常程度越大。从本质上说，其和使用异常分数判断是相同的。

四.实例

这里可以参考这篇文章：

异常检测算法 -- 孤立森林（Isolation Forest）剖析

五.总结

iForest是一种基于Ensemble的方法，通过不断划分数据空间来使异常值尽可能快地“孤立”出来。iForest的重点包括子采样建立Partial models，以及训练iTree的数目，通常树的数目越多，算法越稳定。由于每棵树都是互相独立生成的，因此可以部署在大规模分布式系统上来加速运算。

iForest具有以下优点：

1.可处理大数据：由于时间复杂度低，iForest可用于大数据量的异常检测，且无需太高的空间复杂度。

2.对高维数据适用：由于子采样和Partial models的使用，iForest可用于处理高维的数据，这是其他方法较难以运用的。

同时，iForest也有以下缺点：

1. 对于特别高维的数据，由于树的高度有限制，因此即使建完树后，仍有可能有大量维度信息没被使用。这时，需要使用子空间异常检测(Subspace Anomaly Detection)技术。

2. iForest仅对Global Anomaly，即全局稀疏点敏感，不擅长处理局部的相对稀疏点(Local Anomaly)，目前，已有相对应的解决方案提出，详情可见文献：

Aryal S, Ting K M, Wells J R, et al. Improving iforest with relative mass[C]//Pacific-Asia Conference on Knowledge Discovery and Data Mining. Springer, Cham, 2014: 510-521.