孤立森林算法 python_异常值(离群值)检验的方法—孤立森林(Isolation Forest)...

最近一段时间忙着写Paper,没有时间整理一下数据分析中的一个重要问题:异常值或者是离群值的检验问题(Outlier detection),如下图所示。实时上,关于异常值处理的问题,对于经济学中的实证分析并不是什么大问题,但是在统计学习中,它也是一种识别问题、分类问题或预测问题。对于人类社会来说,离群点可能是人类的精英分子呢。因此,

检验离群点演化出了很多方法,主要集中在概率统计模型(3 Sigma准则、箱型图法和BOX-COX转化等等)和机器学习方法(比如常见的聚类,二分,回归等等)。接下来,我们讲一个应用范围比较广泛的离群值的方法—孤立森林(Isolation Forest)。

应用场景:孤立森林算法是基于 Ensemble 的异常检测方法,因此具有线性的时间复杂度。且精准度较高,在处理大数据时速度快,所以目前在工业界的应用范围比较广。常见的场景包括:网络安全中的攻击检测、金融交易欺诈检测、疾病侦测、噪声数据过滤(数据清洗)等。

算法思想:孤立森林(Isolation Forest)假设我们用一个随机超平面来切割数据空间, 每切一次便可以生成两个子空间。接着继续用一个随机超平面来切割每个子空间,循环下去,直到每个子空间里面只有一个数据点为止。那些密度很高的簇是需要被切很多次才能让子空间中只有一个数据点,但是那些密度很低的点的子空间则很快就被切割成只有一个数据点。如下图所示,黑色的点是异常点,被切几次就停到一个子空间;白色点为正常点,白色点聚焦在一个簇中。孤立森林检测到的异常边界为图7中红色线条,它能正确地检测到所有黑色异常点。

<

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值