python LOF算法

最新推荐文章于 2024-05-03 22:38:29 发布

留和路288号

最新推荐文章于 2024-05-03 22:38:29 发布

阅读量1.1w

点赞数 8

分类专栏：智能算法

智能算法专栏收录该内容

4 篇文章 1 订阅

订阅专栏

LOF 算法背景：

基于密度的离群点检测方法的关键步骤在于给每个数据点都分配一个离散度，其主要思想是：针对给定的数据集，对其中的任意一个数据点，如果在其局部邻域内的点都很密集，那么认为此数据点为正常数据点，而离群点则是距离正常数据点最近邻的点都比较远的数据点。通常有阈值进行界定距离的远近。在基于密度的离群点检测方法中，最具有代表性的方法是局部离群因子检测方法 (Local Outlier Factor, LOF)。

算法简介：

在众多的离群点检测方法中，LOF 方法是一种典型的基于密度的高精度离群点检测方法。在 LOF 方法中，通过给每个数据点都分配一个依赖于邻域密度的离群因子 LOF，进而判断该数据点是否为离群点。若 LOF >> 1，则该数据点为离群点；若 LOF 接近于 1，则该数据点为正常数据点。

距离邻域

定义设 $N_{k}(O)$ 为点的第距离邻域，满足：

$N_{k}(O)=\{P'\in D\text{\ \{O\}}\mid d(O,P')\le d_k(O)\}\tag{12}$

注此处的邻域概念与国内高数教材略有不同（具体的点，而非区间）。该集合中包含所有到点距离小于点第邻域距离的点。易知有 $N_k(O)\ge k$ ，如上图，点的第 5 距离邻域为：

$N_5(O)=\{P_1,P_2,P_3,P_4,P_5,P_6\}\tag{13}$

可达距离

定义点到点的第可达距离定义为：

$d_k(O,P)=\max\{d_k(O),d(O,P)\}\tag{14}$

注即点到点的第可达距离至少是点的第距离。距离点最近的个点，它们到的可达距离被认为是相当的，且都等于 d_k(O)

局部可达密度

定义局部可达密度定义为：

$\rho_k(O)=\frac{1}{\displaystyle\sum_{P\in N_{k}(O)}d_k(O,P)/k}=\frac{k}{\displaystyle\sum_{P\in N_{k}(O)}d_k(O,P)}\tag{15}$

注表示点的第邻域内所有点到的平均可达距离，位于第邻域边界上的点即使个数大于1，也仍将该范围内点的个数计为。如果和周围邻域点是同一簇，那么可达距离越可能为较小的 d_k(O) ，导致可达距离之和越小，局部可达密度越大。如果和周围邻域点较远，那么可达距离可能会取较大值 d(O,P) ，导致可达距离之和越大，局部可达密度越小。

局部离群因子

$LOF_k(O)=\frac{\displaystyle\sum_{P\in N_{k}(O)}\frac{\rho_k(P)}{\rho_k(O)}}{k}\tag{16}$

注表示点的邻域 $N_{k } (O)$ 内其他点的局部可达密度与点的局部可达密度之比的平均数。如果这个比值越接近1，说明的邻域点密度差不多，可能和邻域同属一簇；如果这个比值小于1，说明的密度高于其邻域点密度，为密集点；如果这个比值大于1，说明的密度小于其邻域点密度，可能是异常点。

代码：

import pandas as pd
from sklearn.neighbors import LocalOutlierFactor
def lof(data, predict=None, k=5, method=1, plot=False):
    
    # 判断是否传入测试数据，若没有传入则测试数据赋值为训练数据
    try:
        if predict == None:
            predict = data.copy()
    except Exception:
        pass
    predict = pd.DataFrame(predict)
    # 计算 LOF 离群因子
    clf = LocalOutlierFactor(n_neighbors=k + 1, algorithm='auto', contamination=0.1, n_jobs=-1)
    clf.fit(data)
    # 记录 k 邻域距离
    predict['k distances'] = clf.kneighbors(predict)[0].max(axis=1)
    # 记录 LOF 离群因子，做相反数处理
    predict['local outlier factor'] = -clf._decision_function(predict.iloc[:, :-1])
    # 根据阈值划分离群点与正常点
    outliers = predict[predict['local outlier factor'] > method].sort_values(by='local outlier factor')
    inliers = predict[predict['local outlier factor'] <= method].sort_values(by='local outlier factor')
    return outliers, inliers

参考资料：

https://zhuanlan.zhihu.com/p/37753692

问题：参考资料的算法，在PyCharm中即使没有运行也会导致笔记本CPU暴涨，所以不要写多个函数，直接一个函数就可以了，具体原因，我这个辣鸡也不懂，而且跑的好慢，我五百万的数据跑了40分钟，吐血！！！可能我真的是个盖世辣鸡吧！！！！！

留和路288号

关注

8
点赞
踩
60

收藏

觉得还不错? 一键收藏
4
评论
python LOF算法

LOF 算法背景：基于密度的离群点检测方法的关键步骤在于给每个数据点都分配一个离散度，其主要思想是：针对给定的数据集，对其中的任意一个数据点，如果在其局部邻域内的点都很密集，那么认为此数据点为正常数据点，而离群点则是距离正常数据点最近邻的点都比较远的数据点。通常有阈值进行界定距离的远近。在基于密度的离群点检测方法中，最具有代表性的方法是局部离群因子检测方法 (Local Outlier Fac...
复制链接

扫一扫

专栏目录