异常检测算法（一）：孤立森林（Isolation Forest）【无监督算法的异常检测，可以快速检测数据集中的异常值】【一般用于连续型结构化数据的异常检测】【西瓜书作者周志华老师的团队研究开发的算法】

u013250861

已于 2022-08-04 18:00:08 修改

阅读量2.6k

点赞数

分类专栏：异常检测（Abnomaly Detection）文章标签：异常检测孤立森林

于 2022-04-21 19:06:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/124329133

版权

异常检测（Abnomaly Detection）专栏收录该内容

16 篇文章 12 订阅 ¥15.90 ¥99.00

订阅专栏

超级会员免费看

孤立森林是一种快速有效的异常检测算法，尤其适合连续型结构化数据。它基于异常点容易被孤立的原理，通过构建随机决策树来识别异常值。Scikit-Learn提供了实现。异常检测有助于识别错误数据、实验异常、网络攻击等。孤立森林算法在网络安全、金融欺诈检测等领域有广泛应用。

摘要由CSDN通过智能技术生成

孤立森林是一种简单但非常有效的算法，能够非常快速地发现数据集中的异常值。理解这个算法对于处理表格数据的数据科学家来说是必须的，所以在本文中将简要介绍算法背后的理论及其实现。

由于其算法非常的简单并且高效，所以 Scitkit Learn 已经将其进行了高效的实现，我们可以直接调用使用。但在直接进入示例之前，还是需要介绍其背后的理论，这样才可以深入的了解该算法的。

一、概述

1、什么是异常

异常（异常值）可以描述为数据集中与其他数据或观察结果显著不同的数据点。发生这种情况的原因有几个：

异常值可能表示错误数据不正确或实验可能未正确运行。
异常值可能是由于随机变化或可能表明某些科学上有趣的东西。

针对于不同类型的异常，要用不同的算法来进行检测，而孤立森林算法主要针对的是连续型结构化数据中的异常点。

使用孤立森林的前提是，将异常点定义为那些 “容易被孤立的离群点” —— 可以理解为分布稀疏，且距离高密度群体较远的点。

从统计学来看，在数据空间里，若一个区域内只有分布稀疏的点，表示数据点落在此区域的概率很低，因此可以认为这些区域的点是异常的。

也就是说，孤立森林算法的理论基础有两点

了解本专栏

超级会员免费看

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。