【异常检测】孤立森林（Isolation Forest）算法简介

最新推荐文章于 2024-01-19 21:08:05 发布

Guo_Yaohua

最新推荐文章于 2024-01-19 21:08:05 发布

阅读量1.8k

点赞数 1

本文链接：https://blog.csdn.net/Guo_Yaohua/article/details/106294780

版权

孤立森林（Isolation Forest）是一种用于离群点检测的无监督算法，它通过构建孤立树来高效隔离异常值。算法通过随机超平面切割数据空间，异常值因其低密度特性而更快被孤立，表现为距离树根节点更近。iForest适用于连续数值数据，具有线性时间复杂度，适合大数据处理。尽管对全局异常敏感，但可能不擅长检测局部稀疏点。

摘要由CSDN通过智能技术生成

简介　　

　　工作的过程中经常会遇到这样一个问题，在构建模型训练数据时，我们很难保证训练数据的纯净度，数据中往往会参杂很多被错误标记的脏数据，而数据的质量决定了最终模型性能的好坏。如果进行人工二次标记，成本会很高，我们希望能使用一种无监督算法帮我们做这件事，异常检测算法可以在一定程度上解决这个问题。

　　异常检测分为离群点检测（outlier detection）以及奇异值检测（novelty detection）两种.

- 离群点检测：适用于训练数据中包含异常值的情况，例如上述所提及的情况。离群点检测模型会尝试拟合训练数据最集中的区域，而忽略异常数据。
- 奇异值检测：适用于训练数据不受异常值的污染，目标是去检测新样本是否是异常值。在这种情况下，异常值也被称为奇异点。

　　孤立森林（Isolation Forest, iForest）是一个基于Ensemble的快速离群点检测方法，具有线性时间复杂度和高精准度，是符合大数据处理要求的State-of-the-art算法。由南京大学周志华教授等人于2008年首次提出，之后又于2012年提出了改进版本。适用于连续数据（Continuous numerical data）的异常检测，与其他异常检测算法通过距离、密度等量化指标来刻画样本间的疏离程度不同，孤立森林算法通过对样本点的孤立来检测异常值。具体来说，该算法利用一种名为孤立树（iTree）的二叉搜索树结构来孤立样本。由于异常值的数量较少且与大部分样本的疏离性，因此，异常值会被更早的孤立出来，也即异常值会距离iTree的根节点更近，而正常值则会距离根节点有更远的距离。此外，相较于LOF，K-means等传统算法，孤立森林算法对高纬数据有较好的鲁棒性。其可以用于网络安全中的攻击检测，金融交易欺诈检测，疾病侦测，和噪声数据过滤等。

　　举个例子：

最低0.47元/天解锁文章

Guo_Yaohua

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
【异常检测】孤立森林（Isolation Forest）算法简介

简介　　　　工作的过程中经常会遇到这样一个问题，在构建模型训练数据时，我们很难保证训练数据的纯净度，数据中往往会参杂很多被错误标记的脏数据，而数据的质量决定了最终模型性能的好坏。如果进行人工二次标记，成本会很高，我们希望能使用一种无监督算法帮我们做这件事，异常检测算法可以在一定程度上解决这个问题。　　异常检测分为离群点检测（outlier detection）以及奇异值检测（nove...
复制链接

扫一扫