异常检测（4）—基于相似度的方法

最新推荐文章于 2024-01-21 03:43:13 发布

Mrs.King_UP

最新推荐文章于 2024-01-21 03:43:13 发布

阅读量1k

点赞数 1

分类专栏：异常检测

本文链接：https://blog.csdn.net/qq_38936560/article/details/112895572

版权

异常检测专栏收录该内容

5 篇文章 3 订阅

订阅专栏

1.基于距离的度量方法

基于距离的度量方法是基于最近邻距离来定义异常值。
基于距离的异常检测有这样一个前提假设：异常点的 $k$ 近邻距离要远大于正常点的近邻距离。解决问题的最简单方法是使用嵌套循环。第一层循环遍历每个数据，第二层循环进行异常判断，需要计算当前点与其他点的距离，一旦已识别出多于 $k$ 个数据点与当前点的距离在 $D$ 之内，则将该点自动标记为非异常值。这样计算的时间复杂度为 $O\left(N^{2}\right)$ ，当数据量比较大时，这样计算是及不划算的。因此，需要修剪方法以加快距离计算。
基于距离的检测适用于各个集群的密度较为均匀的情况。

2.基于密度的度量

基于密度的算法主要有：局部离群因子（LOF），此算法以相对于其邻居的局部密度偏差来进行度量。它将相邻点之间的距离进一步转化为“邻域”，从而得到邻域中点的数量（即密度），认为密度远低于其邻居的样本为异常值。

下图中，离群点B容易被检出，而若要检测出较为接近集群的离群点A，则可能会将一些集群边缘的点当作离群点丢弃。而LOF等基于密度的算法则可以较好地适应密度不同的集群情况。
在这里插入图片描述
基于密度的度量值计算步骤：

k-距离，就是以对象o为中心，对数据集D中的所有点到o的距离进行排序，距离对象o第k近的点p与o之间的距离就是k-距离。
对于数据集D中的某一个对象o，与其距离最近的k个相邻点的最远距离表示为k-distance§，定义
为给定点p和数据集D中对象o之间的距离d(p,o)，满足：满足：

在集合D中至少有k个点 o’，其中 $o^{\prime} \in D\{p\}$ ，满足 $d\left(p, o^{\prime}\right) \leq d(p, o)$
在集合D中最多有k-1个点o’，其中 $o^{\prime} \in D\{p\}$ ，满足 $d\left(p, o^{\prime}\right) \leq d(p, o)$

k-领域，由k-距离，我们扩展到一个点的集合——到对象o的距离小于等于k-距离的所有点的集合。
在二维平面上展示出来的话，对象o的k-邻域实际上就是以对象o为圆心、k-距离为半径围成的圆形区域。
可达距离
有了邻域的概念，我们可以按照到对象o的距离远近，将数据集D内的点按照到o的距离分为两类：

若在对象o的k-邻域内，则可达距离就是给定点p关于对象o的k-距离；
若在对象o的k-邻域外，则可达距离就是给定点p关于对象o的实际距离。
给定点p关于对象o的可达距离用数学公式可以表示为：reach $-$ dist $_{k}(p, o)=\max \{k-\operatorname{distance}(o), d(p, o)\}$
[可达距离=max{k-距离， d(p, o)}]
这样的分类处理可以简化后续的计算，同时让得到的数值区分度更高。

局部可达密度
“密度”可以直观地理解为点的聚集程度，点与点之间距离越短，则密度越大。
给定点p的局部可达密度计算公式为 $\operatorname{lrd}_{\operatorname{Min} P t s}(p)=1 /\left(\frac{\sum_{o \in N_{\operatorname{Min} P t s}(p)} \operatorname{reach}-\operatorname{dist}_{\operatorname{Min} P t s}(p, o)}{\left|N_{\operatorname{Min} P t s}(p)\right|}\right)$
在这里，我们使用数据集D中给定点p与对象o的k-邻域内所有点的可达距离平均值的倒数（注意，不是导数）来定义局部可达密度。
局部异常因子
点p的邻域 $N_{k}(p)$ 内其他点的局部可达密度与点p的局部可达密度之比的平均数, $F_{\operatorname{Min} P t s}(p)=\frac{\sum_{o \in N_{\operatorname{Min} P t s}(p)} \frac{\operatorname{lrd}_{\operatorname{Min} P t s}(\mathrm{o})}{\operatorname{lrd}_{\operatorname{Min} P t s}(p)}}{\left|N_{\operatorname{Min} P t s}(p)\right|}$ 如果这个比值越接近1，说明o的邻域点密度差不多，o可能和邻域同属一簇；如果这个比值小于1，说明o的密度高于其邻域点密度，o为密集点；如果这个比值大于1，说明o的密度小于其邻域点密度，o可能是异常点。

最终得出的LOF数值，就是我们所需要的离群点分数。在sklearn中有LocalOutlierFactor库，可以直接调用。

LocalOutlierFactor库：可以用于对单个数据集进行无监督的离群检测，也可以基于已有的正常数据集对新数据集进行新颖性检测。在这里我们进行单个数据集的无监督离群检测。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.neighbors import LocalOutlierFactor
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus']=False
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

np.random.seed(61)
# 构造两个数据点集群
X_inliers1 = 0.2 * np.random.randn(100, 2)
X_inliers2 = 0.5 * np.random.randn(100, 2)
X_inliers = np.r_[X_inliers1 + 2, X_inliers2 - 2]
# 构造一些离群的点
X_outliers = np.random.uniform(low=-4, high=4, size=(20, 2))
# 拼成训练集
X = np.r_[X_inliers, X_outliers]
n_outliers = len(X_outliers)
ground_truth = np.ones(len(X), dtype=int)
# 打标签，群内点构造离群值为1，离群点构造离群值为-1
ground_truth[-n_outliers:] = -1

plt.title('构造数据集 (LOF)')
plt.scatter(X[:-n_outliers, 0], X[:-n_outliers, 1], color='b', s=5, label='集群
点')
plt.scatter(X[-n_outliers:, 0], X[-n_outliers:, 1], color='orange', s=5,
label='离群点')
plt.axis('tight')
plt.xlim((-5, 5))
plt.ylim((-5, 5))
legend = plt.legend(loc='upper left')
legend.legendHandles[0]._sizes = [10]
legend.legendHandles[1]._sizes = [20]
plt.show()

在这里插入图片描述

# 训练模型（找出每个数据的实际离群值）
clf = LocalOutlierFactor(n_neighbors=20, contamination=0.1)
# 对单个数据集进行无监督检测时，以1和-1分别表示非离群点与离群点
y_pred = clf.fit_predict(X)
# 找出构造离群值与实际离群值不同的点
n_errors = y_pred != ground_truth
X_pred = np.c_[X,n_errors]
X_scores = clf.negative_outlier_factor_
# 实际离群值有正有负，转化为正数并保留其差异性（不是直接取绝对值）
X_scores_nor = (X_scores.max() - X_scores) / (X_scores.max() - X_scores.min())
X_pred = np.c_[X_pred,X_scores_nor]
X_pred = pd.DataFrame(X_pred,columns=['x','y','pred','scores'])
X_pred_same = X_pred[X_pred['pred'] == False]
X_pred_different = X_pred[X_pred['pred'] == True]
# 直观地看一看数据
X_pred

plt.title('局部离群因子检测 (LOF)')
plt.scatter(X[:-n_outliers, 0], X[:-n_outliers, 1], color='b', s=5, label='集群
点')
plt.scatter(X[-n_outliers:, 0], X[-n_outliers:, 1], color='orange', s=5,
label='离群点')
# 以标准化之后的局部离群值为半径画圆，以圆的大小直观表示出每个数据点的离群程度
plt.scatter(X_pred_same.values[:,0], X_pred_same.values[:, 1],
s=1000 * X_pred_same.values[:, 3], edgecolors='c',
facecolors='none', label='标签一致')
plt.scatter(X_pred_different.values[:, 0], X_pred_different.values[:, 1],s=1000 * X_pred_different.values[:, 3], edgecolors='violet',facecolors='none', label='标签不同')
plt.axis('tight')
plt.xlim((-5, 5))
plt.ylim((-5, 5))
legend = plt.legend(loc='upper left')
legend.legendHandles[0]._sizes = [10]
legend.legendHandles[1]._sizes = [20]
plt.show()

在这里插入图片描述

Mrs.King_UP

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
2
评论
异常检测（4）—基于相似度的方法

1.基于距离的度量方法基于距离的度量方法是基于最近邻距离来定义异常值。基于距离的异常检测有这样一个前提假设：异常点的kkk近邻距离要远大于正常点的近邻距离。解决问题的最简单方法是使用嵌套循环。第一层循环遍历每个数据，第二层循环进行异常判断，需要计算当前点与其他点的距离，一旦已识别出多于kkk个数据点与当前点的距离在DDD之内，则将该点自动标记为非异常值。这样计算的时间复杂度为O(N2)O\left(N^{2}\right)O(N2)，当数据量比较大时，这样计算是及不划算的。因此，需要修剪方法以加快距
复制链接

扫一扫