2021-05-task4 异常检测-基于相似度的方法

最新推荐文章于 2021-05-21 02:25:24 发布

William_ywh

最新推荐文章于 2021-05-21 02:25:24 发布

阅读量94

点赞数

分类专栏：机器学习入门

本文链接：https://blog.csdn.net/Kyre11/article/details/117095938

版权

机器学习入门专栏收录该内容

9 篇文章 0 订阅

订阅专栏

本文探讨了两种常见的异常检测技术：基于距离和基于密度的方法。基于距离的方法利用最近邻距离来识别异常值，适用于多维数据，但计算复杂度高，常需修剪策略。基于密度的算法如LOF(局部离群因子)更能适应密度不同的数据集群，能有效检测靠近集群边缘的离群点。这两种方法各有优缺点，适用于不同场景的异常检测需求。

摘要由CSDN通过智能技术生成

今天看两个异常检测：

基于距离的度量
基于密度的度量

基于距离：
基于距离的方法是一种常见的适用于各种数据域的异常检测算法，它基于最近邻距离来定义异常值。此类方法不仅适用于多维数值数据，在其他许多领域，例如分类数据，文本数据，时间序列数据和序列数据等方面也有广泛的应用。
基于距离的异常检测有这样一个前提假设，即异常点的近邻距离要远大于正常点。解决问题的最简单方法是使用嵌套循环。第一层循环遍历每个数据，第二层循环进行异常判断，需要计算当前点与其他点的距离，一旦已识别出多于个数据点与当前点的距离在之内，则将该点自动标记为非异常值。这样计算的时间复杂度为，当数据量比较大时，这样计算是及不划算的。因此，需要修剪方法以加快距离计算。

基于密度：
基于密度的算法主要有局部离群因子(LocalOutlierFactor,LOF)，以及LOCI、CLOF等基于LOF的改
进算法。下面我们以LOF为例来进行详细的介绍和实践。
基于距离的检测适用于各个集群的密度较为均匀的情况。在下图中，离群点B容易被检出，而若要检测出较为接近集群的离群点A，则可能会将一些集群边缘的点当作离群点丢弃。而LOF等基于密度的算法则可以较好地适应密度不同的集群情况。

William_ywh

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-05-task4 异常检测-基于相似度的方法

今天看两个异常检测：基于距离的度量基于密度的度量基于距离：基于距离的方法是一种常见的适用于各种数据域的异常检测算法，它基于最近邻距离来定义异常值。此类方法不仅适用于多维数值数据，在其他许多领域，例如分类数据，文本数据，时间序列数据和序列数据等方面也有广泛的应用。基于距离的异常检测有这样一个前提假设，即异常点的近邻距离要远大于正常点。解决问题的最简单方法是使用嵌套循环。第一层循环遍历每个数据，第二层循环进行异常判断，需要计算当前点与其他点的距离，一旦已识别出多于个数据点与当前点的
复制链接

扫一扫