Task_4

无价攻城狮

于 2021-05-21 02:21:00 发布

阅读量53

点赞数

分类专栏：异常检测笔记

本文链接：https://blog.csdn.net/qq_45722145/article/details/117097514

版权

26 篇文章 0 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

在异常检测中，我们弱化了“噪声”和“正常数据”之间的区别，专注于那些具有有价值特性的异常值。在基于相似度的方法中，主要思想是异常点的表示与正常点不同。

当数据量比较大时，这样计算是及不划算的。因此，需要修剪方法以加快距离计算。

什么是单元格方法：具体地说，每个维度被划分成宽度最多为 xx单元格。在给定的单元以及相邻的单元中存在的数据点满足某些特性，这些特性可以让数据被更有效的处理。
网格单元的数量基于数据空间的分区，并且与数据点的数量无关。这是决定该方法在低维数据上的效率的重要因素，在这种情况下，网格单元的数量可能不多。另一方面，此方法不适用于更高维度的数据。
基于距离的检测适用于各个集群的密度较为均匀的情况。在下图中，离群点B容易被检出，而若要检测出较为接近集群的离群点A，则可能会将一些集群边缘的点当作离群点丢弃。而LOF等基于密度的算法则可以较好地适应密度不同的集群情况。
局部密度可达：

对给定点p进行度量，计算其邻域内的所有对象o到给定点p的可达距离平均值。给定点p的局部可达密度越高，越可能与其邻域内的点属于同一簇；密度越低，越可能是离群点。

关注