LOF(局部异常因子)算法-异常点/离群点检测

最新推荐文章于 2021-12-21 23:55:18 发布

迷雾总会解

最新推荐文章于 2021-12-21 23:55:18 发布

阅读量5.6k

点赞数 2

分类专栏：数据挖掘文章标签：数据挖掘算法 python

本文链接：https://blog.csdn.net/qq_44766883/article/details/109687463

版权

数据挖掘专栏收录该内容

19 篇文章 5 订阅

订阅专栏

为什么需要LOF

在数据挖掘方面，经常需要在做特征工程和模型训练之前对数据进行清洗，剔除无效数据和异常数据。异常检测也是数据挖掘的一个方向，用于反作弊、伪基站、金融诈骗等领域。

异常检测方法，针对不同的数据形式，有不同的实现方法。常用的有基于分布的方法，在上、下α分位点之外的值认为是异常值（例如图1），对于属性值常用此类方法。基于距离的方法，适用于二维或高维坐标体系内异常点的判别，例如二维平面坐标或经纬度空间坐标下异常点识别，可用此类方法。

这次要介绍一下一种基于距离的异常检测算法，局部异常因子LOF算法（Local Outlier Factor）。

用视觉直观的感受一下，如图2，对于 $C_1$ 集合的点，整体间距，密度，分散情况较为均匀一致，可以认为是同一簇；对于 $C_2$ 集合的点，同样可认为是一簇。 $o_1$ 、 $o_2$ 点相对孤立，可以认为是异常点或离散点。现在的问题是，如何实现算法的通用性，可以满足 $C_1$ 和 $C_2$ 这种密度分散情况迥异的集合的异常点识别。LOF可以实现我们的目标。

概念与公式

d(A,B)：两点间的距离
k-distance: $distance_k(o)$ ----- o的第k距离(也就是距离o第k远的点的距离,不包括o)

看图，当k=3时 $distance_k(o)$ = $distance(o,p_3)$ 并且满足：
- 在集合C中至少有不包括o在内的k个点p∈C{p≠o},满足d{o,p}≤d{o, $p_3$ }
- 在集合C中至少有不包括o在内的k-1个点p∈C{p≠o},满足d{o,p}＜d{o, $p_3$ }
k-distance neighborhood of p： $N_k(o)$ ----- o的第k距离邻域

就是o的第k距离即以内的所有点，包括第k距离

因此p的第k邻域点的个数 $N_k(p)| ≥ k$
distance：可达距离
$distance_{k}(A,B) = max\{distance_k(B),d(A,B)\}$

也就是，点B到点A的第k可达距离，至少是B的第k距离，或者为A、B间的真实距离。

这也意味着，离点B最近的k个点，B到它们的可达距离被认为相等，且都等于 $distance_k(B)$
local reachability density：局部可达密度
点A的局部可达密度
$\frac{1}{\frac{\sum_{B∈N_k(A)}distance_k(A,B)}{|N_k(A)|}}$

这个值的含义可以这样理解，首先这代表一个密度，密度越高，我们认为越可能属于同一簇，密度越低，越可能是离群点。

如果p和周围邻域点是同一簇，那么可达距离越可能为较小的 $d_k(o)$ ，导致可达距离之和较小，密度值较高；如果p和周围邻居点较远，那么可达距离可能都会取较大值 d(A,B)，导致密度较小，越可能是离群点。

注意：是p的邻域点 $N_k(p)$ 到p的可达距离，不是p到 $N_k(p)$ 的可达距离，一定要弄清楚关系
local outlier factor：局部离群因子
$LOF_k(A) = \frac{\sum_{B∈N_k(A)}\frac{lrd(B)}{lrd(A)}}{|N_k(A)|} = \frac{\frac{\sum_{B∈N_k(A)}lrd(B)}{|N_k(A)|}}{lrd(A)}$
表示点A的邻域点 $N_k(A)$ 的局部可达密度与点A的局部可达密度之比的平均数。又或者说是点A的邻域点 $N_k(A)$ 的局部可达密度的平均数与点A的局部可达密度之比。

如果这个比值越接近1，说明p的其邻域点密度差不多，A可能和邻域同属一簇；如果这个比值越小于1，说明A的密度高于其邻域点密度，A为密集点；如果这个比值越大于1，说A的密度小于其邻域点密度，A越可能是异常点。

在这个图中，圈越大，LOF越大，代表着越可能是离群点。

现在概念定义已经介绍完了，现在再回过头来看一下lof的思想，主要是通过比较每个点A和其邻域点的密度来判断该点是否为异常点，如果点A的密度越低，越可能被认定是异常点。至于密度，是通过点之间的距离来计算的，点之间距离越远，密度越低，距离越近，密度越高，完全符合我们的理解。而且，因为lof对密度的是通过点的第k邻域来计算，而不是全局计算，因此得名为“局部”异常因子，

算法

👉 https://github.com/damjankuznar/pylof

迷雾总会解

关注

2
点赞
踩
42

收藏

觉得还不错? 一键收藏
1
评论
LOF(局部异常因子)算法-异常点/离群点检测

为什么需要LOF 在数据挖掘方面，经常需要在做特征工程和模型训练之前对数据进行清洗，剔除无效数据和异常数据。异常检测也是数据挖掘的一个方向，用于反作弊、伪基站、金融诈骗等领域。异常检测方法，针对不同的数据形式，有不同的实现方法。常用的有基于分布的方法，在上、下α分位点之外的值认为是异常值（例如图1），对于属性值常用此类方法。基于距离的方法，适用于二维或高维坐标体系内异常点的判别，例如二维平面坐标或经纬度空间坐标下异常点识别，可用此类方法。这次要介绍一下一种基于距离的异常检测算法，局部异常因子LO
复制链接

扫一扫