Isolation Forest 孤立森林

Mark_Aussie

已于 2023-01-28 11:35:42 修改

阅读量1.5k

点赞数 2

分类专栏：机器学习

于 2021-07-13 18:02:07 首次发布

本文链接：https://blog.csdn.net/MarkAustralia/article/details/118706611

版权

机器学习专栏收录该内容

47 篇文章 5 订阅

订阅专栏

孤立森林，不再描述正常的样本点，而是要孤立异常点。

用一个随机超平面对一个数据空间进行切割，切一次可以生成两个子空间。继续随机选取超平面，切割得到的两个子空间，以此循环下去，直到每子空间里面只包含一个数据点为止。密度很高的簇要被切很多次才会停止切割，即每个点都单独存在于一个子空间内，但那些分布稀疏的点，大都很早就停到一个子空间内了。

随机选择m个特征，通过在所选特征的大值和小值之间随机选择一个值来分割数据点。观察值的划分递归地重复，直到所有的观察值被孤立。获得 t 个孤立树后，单棵树的训练就结束了。

用生成的孤立树来评估测试数据了，即计算异常分数 s。对于每个样本 x，需要对其综合计算每棵树的结果，用公式计算异常得分，

from sklearn.datasets import load_iris
from sklearn.ensemble import IsolationForest

data = load_iris(as_frame=True)
X,y = data.data,data.target
df = data.frame

# 模型训练
iforest = IsolationForest(n_estimators=100, max_samples='auto',
                          contamination=0.05, max_features=4,
                          bootstrap=False, n_jobs=-1, random_state=1)

#  fit_predict 函数训练和预测一起可以得到模型是否异常的判断，-1为异常，1为正常
df['label'] = iforest.fit_predict(X)

# 预测 decision_function 可以得出异常评分
df['scores'] = iforest.decision_function(X)

孤立森林的算法思想：异常样本更容易快速落入叶子结点或者说，异常样本在决策树上，距离根节点更近。异常的点通常是孤立的，例如采用二叉树对数据进行切分，数据点在二叉树中所处的深度反应了该条数据的“疏离”程度，异常点只需较少的切分即可划分出来。

异常的两个特点：异常数据只占很少量、异常数据特征值和正常数据差别很大。

此时异常被定义为“容易被孤立的离群点 (more likely to be separated)”，即分布稀疏且离密度高的群体较远的点。在特征空间里，分布稀疏的区域表示事件发生在该区域的概率很低，落在该区域的数据是异常的。

孤立森林是适用于连续数据(Continuous numerical data)的无监督异常检测方法，即不需要有标记的样本来训练，但特征需要是连续的。在孤立森林中，递归地随机分割数据集，直到所有的样本点都是孤立的。在这种随机分割的策略下，异常点通常具有较短的路径。

与随机森林由大量决策树组成一样，iForest森林由大量的树组成。iForest中的树叫 isolation tree，简称 iTree，其构建过程比决策树简单，其是完全随机的过程。

假设数据集有 N 条数据，构建一颗 iTree 时，从N条数据中均匀抽样(一般是无放回抽样)出ψ个样本出来，作为这颗树的训练样本。随机选一个特征，并在这个特征的所有值范围内(最小值与最大值之间)随机选一个值，对样本进行二叉划分，将样本中小于该值的划分到节点的左边，大于等于该值的划分到节点的右边，得到了一个分裂条件和左、右两边的数据集，分别在左右两边的数据集上重复上面的过程，直接达到终止条件。

终止条件有两个，一个是数据本身不可再分(只包括一个样本，或者全部样本相同)，另外一个是树的高度达到log2(ψ)。不同于决策树，iTree在算法里面已经限制了树的高度。

构建好所有的 iTree，就可以对测数据进行预测；过程就是把测试数据在 iTree 树上沿对应的条件分支往下走，直到达到叶子节点，并记录这过程中经过的路径长度h(x)，即从根节点，穿过中间的节点，最后到达叶子节点，所走过的边的数量(path length)，将h(x)带入，计算每条待测数据的异常分数(Anomaly Score)：