异常检测：探索数据深层次背后的奥秘《下篇》---高维数据异常检测：孤立森林

最新推荐文章于 2024-08-18 21:31:01 发布

汀、人工智能

最新推荐文章于 2024-08-18 21:31:01 发布

阅读量183

点赞数

分类专栏：数据挖掘-机器学习文章标签：人工智能数据挖掘机器学习异常检测数学建模数据分析特征工程

涉及博主原创类文章，未经博主许可不允许转载

本文链接：https://blog.csdn.net/sinat_39620217/article/details/133268081

版权

数据挖掘-机器学习专栏收录该内容

31 篇文章 48 订阅 ¥19.90 ¥99.00

订阅专栏

本文探讨了在高维数据中进行异常检测的挑战，重点介绍了孤立森林算法。异常检测是数据挖掘的关键任务，而孤立森林因其实时效率和对高维数据的处理能力而备受青睐。该算法通过构建随机二叉树并利用路径长度来判断样本的异常程度。此外，文中提到了Feature Bagging作为另一种集成方法，用于降低方差，并讨论了相关数据集和Python工具scikit-learn与PyOD在异常检测中的应用。

摘要由CSDN通过智能技术生成

异常检测：探索数据深层次背后的奥秘《下篇》

异常检测——高维数据异常检测：孤立森林

在实际场景中，很多数据集都是多维度的。随着维度的增加，数据空间的大小（体积）会以指数级别增长，使数据变得稀疏，这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战，对距离的计算，聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性，但是，在高维空间中，所有点对的距离几乎都是相等的（距离集中），这使得一些基于距离的方法失效。在高维场景下，一个常用的方法是子空间方法。

集成是子空间思想中常用的方法之一，可以有效提高数据挖掘算法精度。集成方法将多个算法或多个基检测器的输出结合起来。其基本思想是一些算法在某些子集上表现很好，一些算法在其他子集上表现很好，然后集成起来使得输出更加鲁棒。集成方法与基于子空间方法有着天然的相似性，子空间与不同的点集相关，而集成方法使用基检测器来探索不同维度的子集，将这些基学习器集合起来。

下面来介绍两种常见的集成方法：