异常点检测 孤立森林(isolation forest)

孤立森林是一种无监督异常检测方法,适用于连续数据。它利用高密度簇和低密度点的路径长度差异来孤立异常点。在小数据集上效果良好,但大数据集可能出现swamping和masking问题。子采样可以缓解这些问题,帮助识别异常。
摘要由CSDN通过智能技术生成

先说重点

1、孤立森林是一种适用于连续数据无监督异常检测方法

2、孤立森林,不再是描述正常的样本点(给出一个正常样本在特征空间中的区域,对于不在这个区域中的样本,视为异常),而是要孤立异常点

3、根据‘高密度的簇是需要被切很多次才能被孤立,低密度的点被切分较少次就可以被孤立’的原理,最终算法比较路径长度的平均值即可捕获异常点。

4、对小数据集能取得更好的效果。样本数较多会降低孤立森林孤立异常点的能力,从而出现典型的swamping和masking问题。

细说原理

异常值的两个特点:异常数据只占很少量、异常数据特征值和正常数据差别很大。

孤立森林机制是近似随机森林的。下图直观地看出,正常点通常是密度很高的簇,需要被切很多次才能被孤立,但是那些密度很低的点很容易就可以被孤立。由于数的切割点是随机生成的,且直到树的孩子节点中只有一个数据(无法再继续切割) 或 孩子节点已到达限定高度时停止。故需计算各点的平均路径长度作为衡量标准(均值)。如右图看到异常点的平均路径长度小于正常点的路径长度。

isolation tree

  • 0
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值