异常检测方法概览-CSDN博客

本文链接：https://blog.csdn.net/poorlytechnology/article/details/116656860

task1:异常检测相关概念

1.概念

异常检测：根据领域的不同又不同的概念，如，对于数据处理，就是检测异常数据；对于图像处理就是检测出异常图片；在工业上，对于零部件的检测等等，都属于异常检测。
以数据处理为场景，异常可以分为多个类别，点异常、条件异常与群体异常。
点异常：指个别数据的异常
条件异常：又称上下文异常，是指在特定条件下个体实例出现异常，在其他条件下是正常的，比如，在特定时间下的温度突然上升或下降
群体异常：群体集合中的个体实例出现异常的情况，而该个体实例自身可能不是异常

2.异常检测方法

2.1基础方法

统计学：假定正常的数据对象由一个统计模型产生，不遵守该模型的数据是异常点
线性模型：PCA，主要用于数据降维。通过构造一个新的特征空间，把原始数据映射到这个新的低维空间，实现对数据的降维。PCA可以很好的保留原始数据的主要特征。
邻近度：适用于数据点的聚集程度搞，离群点较少的情况。一般用数据间得相似度来表示邻近度，而相似度的计算需要每个数据与其他数据进行相应的计算，计算量巨大，不适用于数据量大的情况。
相似度的检测有以下几种方法。
基于集群的检测：
聚类算法是将数据点划分为一个个相对密集的’簇‘，那些不能被归为’簇‘的点被称作离群点。这类算法对簇个数的选择高度敏感，数量选择不当可能造成较多正常值被划为离群点或成小簇的离群点被归为正常。因此对于每一个数据集需要设置特定的参数，才可以保证聚类的效果，通用性差。聚类的主要目的是寻找成簇的数据，而将异常值和噪声异同作为无价值的数据而忽略或丢弃，在专门的异常检测中使用较少。
常用的集群检测有k-means、DBSCAN算法等。
k-means算法伪代码：
输入：样本集D={x1,x2,…,xm}
聚类簇数k
过程：
1：从D中随机选择k个样本作为初始均值向量{u1，u2,…,uk}
2：repeat
3：令Ci=空集（1<=i<=k）
4： for j=1,2,…,m do
5：计算样本xi与各均值向量ui的距离：dji=||xj-ui||2;
6：根据距离最近的均值向量确定xj的簇标记:λj=argmax(dji)(i={1,2,…,k})
7：将样本xj划入相应的簇：Cλi=Cλi 并 {xi}
8： end for
9: for i=1,2,…,k do
10：计算新均值向量
11: if 新均值向量!=原均值向量 then
12：将当前均值向量更新为新均值向量
13： else
14：保持均值向量不变
15： end if
16： end for
17： unitl 当前均值向量均未更新
输出：簇划分C={C1，C2,…,Ck}
DBSCAN是一种著名的密度聚类算法，它基于一组’邻域‘参数来刻画样本分布的紧密程度，给定数据集，定义了Ipsilon邻域、核心对象、密度直达、密度可达、密度相连。DBSCAN将簇定义为：由密度可达关系导出的最大的密度相连样本集合。
基于距离的度量：
k近邻算法的基本思路是对每一个点，计算其与最近k个相邻点的距离，通过距离的大小来判断它是否为离群点。离群距离大小对k的取值高度敏感，为使模型更加稳定，距离值的计算通常使用k个最近邻的平均距离。
基于密度的度量：
局部离群因子算法（LOG）与k近邻类似，不同的是它以相对于其邻居的局部密度偏差而不是距离来进行度量。它将相邻点之间的距离进一步进一步转化为’邻域‘，从而得到邻域中点的数量（即密度），认为密度远低于其邻居的样本为异常值。

2.2集成方法

常用的集成方法有Feature bagging，孤立森林等。
Feature bagging：
Feature bagging是对样本的特征进行重抽样得到多个数据集，再使用一组（多个）模型对这些数据集进行训练,常⽤lof算法为基算法。
孤立森林：
孤立森林属于非参数与无监督的算法，不需要训练标签。用一个随机超平面来切割数据空间，切一次可以生成两个子空间。然后我们继续用随机超平面来切割每个子空间并循环，直到每个子空间只有一个数据点为止。直观上来讲，那些具有高密度的簇需要被切很多次才会将其分离，而那些低密度的点很快就被单独分配到一个子空间。

2.3机器学习

在有标签的情况下，可以使用树模型（gbdt,xgboost等）进行分类，缺点是异常检测场景下数据标签是不均衡的，所以在对异常检测时可以对正样本采用下采样，或者人工加入一些负样本，尽量平衡数据的分布，增强结果的可靠性。利用机器学习算法的可以通过特征组合、特征交叉等方法构造不同的特征，而且机器学习通多对数据进行多次训练，得到的结果与数据本身的相关性较强，更加符合实际，同时树模型的解释性较强，是不错的检测异常的方式。