异常检测-Task2

最新推荐文章于 2024-01-19 20:14:21 发布

What We Talk about

最新推荐文章于 2024-01-19 20:14:21 发布

阅读量169

点赞数

分类专栏： PyOD异常检测

本文链接：https://blog.csdn.net/king_without_clothes/article/details/112687074

版权

PyOD异常检测专栏收录该内容

4 篇文章 2 订阅

订阅专栏

本文介绍了异常检测中的统计方法，包括基于高斯分布的参数方法（多元高斯分布与高斯混合模型）和非参数方法中的HOSS算法。在参数方法中，通过极大似然估计确定高斯模型参数，利用概率密度函数识别异常点；非参数方法中，HOSS算法基于直方图统计，通过异常评分确定异常值。动态宽度直方图在处理数据分布有较大差距时更为适用。

摘要由CSDN通过智能技术生成

文章目录

异常检测-Task2

异常检测-Task2

记录DataWhale的异常检测的学习过程，使用的教材可以在此链接中下载。
Task2介绍的是传统的基于统计方法的异常检测算法，主要可以分为两类，第一类是参数方法，介绍的是使用高斯分布对数据进行建模；第二类是非参数方法，介绍了Histogram-based Outlier Score(HBOS)算法[1]。最后介绍的一个HBOS算法的实例。

统计方法概述

统计方法做异常检测的思路是：正常的数据对象由一个概率模型产生，而不符合该模型概率分布的数据是异常点。统计方法可以分为参数方法和非参数方法两种，参数方法是先假定一个先验的概率分布 $P_\theta(x)$ 对数据进行建模，然后利用极大似然法确定 $P_\theta(x)$ 中未知的参数 $\theta$ ,模型建模就完成了。将新的数据 $x$ 代入 $P_\theta(x)$ ，若值很小，说明 $x$ 在该概率模型下出现的概率小，可以判定为异常点。
非参数方法也是从数据中进行建模，但是没有指定先验的概率模型。

基于高斯分布的参数方法

高斯分布由于各种优良的性质一直被广泛使用，所以我们这里介绍以高斯分布为代表的参数方法。在实际中，也可以根据数据的特性选择其他更适合的先验分布模型。在本文中，我们简单介绍常用的多元高斯分布和高斯混合分布对数据进行建模(其实就是利用极大似然估计确定高斯模型的参数)。

多元高斯分布

无标签的数据集 $D=\{\boldsymbol{x_1},\boldsymbol{x_2}\cdots\boldsymbol{x_m}\}$ ，其中 $\boldsymbol{x_i}\in\mathbb R^d$ ，共有 $m$ 个样本。我们假设数据服从多元高斯分布： $\boldsymbol{x_i}\sim \mathcal{N}(\boldsymbol{\mu},\sum)$ ,此时需要从数据集中估计出参数 $(\boldsymbol{\mu},\sum)$ ,假设所有样本独立同分布，由于极大似然估计法可易得：

$\boldsymbol{\mu}=\frac{1}{m} \sum_{i=1}^{m} \boldsymbol{x_i}$

$\sum=\frac{1}{m} \sum_{i=1}^{m}\left(\boldsymbol{x_i}-\boldsymbol{\mu}\right)\left(\boldsymbol{x_i}-\boldsymbol{\mu}\right)^{T}$

根据 $(\boldsymbol{\mu},\sum)$ 的值，我们可以得到高斯分布的概率密度函数：

$p(\boldsymbol{x})=\frac{1}{(2 \pi)^{\frac{d}{2}}|\Sigma|^{\frac{1}{2}}} \exp \left(-\frac{1}{2}(\boldsymbol{x_i}-\boldsymbol{\mu})^{T} \Sigma^{-1}(\boldsymbol{x_i}-\boldsymbol{\mu})\right)$

进行异常检测时，将样本 $\boldsymbol{x_i}$ 代入上面的公式，设置一个阈值，结果低于阈值的当作异常点。

高斯混合模型

教材上说当实际数据很复杂时，可以假定数据是被混合参数分布产生的。不知道这个混合参数分布是什么意思，我感觉应该是类似高斯混合分布(GMM)的模型吧，这里简单介绍一下GMM模型，关于GMM的详细数学推导可以参考知乎上的这篇文章,文章中对GMM公式的推导写的很详细，本文下面的内容也主要参考了这篇文章。

GMM模型假设真实分布由 $K$ 个高斯分布线性组合而成，每一个高斯模型都有各自的 $(\boldsymbol{\mu},\sum)$ 值，同时引入了一个新的参数 $\pi_{k}$ ，表示第 $k$ 个子模型在GMM中的占比,GMM模型的概率密度函数定义为:

$p(\boldsymbol{x})=\sum_{k=1}^{K} \pi_{k} \mathcal{N}\left(\boldsymbol{x} \mid \boldsymbol{\mu}_{k}, \boldsymbol{\Sigma}_{k}\right)$

我们同样可以使用极大似然估计方法对未知参数进行求解,先得到似然函数：

$L(\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Sigma})=\sum_{i=1}^{m} \ln \left[\sum_{k=1}^{K} \pi_{k} \mathcal{N}\left(\boldsymbol{x}_{i} \mid \boldsymbol{\mu}_{k}, \boldsymbol{\Sigma}_{k}\right)\right]$

继续极大似然估计法的步骤，求三个方程：

$\frac{\partial L(\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Sigma})}{\partial \boldsymbol{\mu}_{k}}=0$

$\frac{\partial L(\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Sigma})}{\partial \boldsymbol{\sum}_{k}}=0$

$\frac{\partial L(\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Sigma})}{\partial {\pi}_{k}}=0$

为了更方便解以上三个式子,还需引入一个新的变量： $\gamma_{j k}$ ， $\gamma_{j k}$ 表示的是第 $j$ 个观测数据 $\boldsymbol{x_j}$ 由第 $k$ 个子模型生成的概率， $\gamma_{j k}$ 的取值与 $\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Sigma}$ 有关，用公式表达为：
$\gamma_{j k}= \frac{\pi_{k} \mathcal{N}\left(\boldsymbol{x}_{j} \mid \boldsymbol{\mu}_{k}, \boldsymbol{\Sigma}_{k}\right)}{\sum_{i=1}^{K} \pi_{i} \mathcal{N}\left(\boldsymbol{x}_{j} \mid \boldsymbol{\mu}_{i}, \boldsymbol{\Sigma}_{i}\right)}$
这里的 $\pi_{k}$ 表示第 $k$ 个子模型在GMM中的占比，也可以看作在所有可能的样本中，由第 $k$ 个模型生成的样本个数占总体样本个数的比例。引入 $\gamma_{j k}$ 解决极大似然估计中的三个方程，得：

$\boldsymbol{\mu}_{k}=\frac{\sum_{j=1}^{m}\left(\gamma_{j k} \boldsymbol{x}_{j}\right)}{\sum_{j=1}^{m} \gamma_{j k}}$

$\boldsymbol{\Sigma}_{k}=\frac{\sum_{j=1}^{m} \gamma_{j k}\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{k}\right)\left(\boldsymbol{x}_{j}-\boldsymbol{\mu}_{k}\right)^{T}}{\sum_{j=1}^{m} \gamma_{j k}}$

$\pi_{k}=\frac{\sum_{j=1}^{m} \gamma_{j k}}{m}$

但问题至此并没有结束，我们不能像普通极大似然法一样直接根据方程的解得到 $\pi_k, \boldsymbol{\mu_k}, \boldsymbol{\Sigma_k}$ 的值，因为由方程解的形式可得，未知数 $\pi_k, \boldsymbol{\mu_k}, \boldsymbol{\Sigma_k}$ 的取值都与 $\gamma_{j k}$ 相关,而 $\gamma_{j k}$ 又是 $\boldsymbol{\pi}, \boldsymbol{\mu}, \boldsymbol{\Sigma}$ 的函数，成了一个先有鸡还是先有蛋的问题了，对于这种问题，我们通常使用EM 算法解决，关于EM的具体原理和算法流程，可以参考李航老师的《统计学习方法》，这里就不过多介绍了。使用EM算法后，可以得到GMM模型的参数估计，进而也就确定了GMM模型的概率密度函数，接下来判断异常点的流程和简单的多元高斯分布采用的方法一样。

非参数方法-HOSS算法

算法思想

非参数方法中主要介绍了基于直方图统计的HOSS算法，HOSS算法的基本假设是基本假设是数据集的特征间相互独立,不考虑特征间的相关性。HOSS算法对样本的每个维度分别进行区间划分，将归一化后的区间的高度作为概率，然后就是常规操作了，将概率值低的点视为异常值，不过HOSS引入了一个异常评分，异常值分数越高说明越可能是异常点，具体做法也很简单，这里我们只考虑一个维度上的结果，不是概率越小越可能是异常点嘛，就先把概率值取一个 $l o g$ ，将概率值由[0,1]区间放大到（ $-\infty,0]$ ，再取一个负号就可以了当作异常评分了，扩展到多个维度，也很简单，因为不考虑维度间的相关性，直接将每个维度的异常评分加起来就是一个多维样本的异常值评分。
用数学语言来描述就是，一个 $d$ 维的样本 $\boldsymbol{x}$ ,其异常值评分记作 $HOSS(\boldsymbol{x})$ ,有：
$HOSS(\boldsymbol{x})=\sum_{i=1}^{d} \frac{1}{\log \left(P_{i}(\boldsymbol{x})\right)}$
其中， $P_{i}(\boldsymbol{x})$ 指的是样本 $\boldsymbol{x}$ 的第 $i$ 维的概率，就是在直方图上落在的那个区间的归一化的高度。

直方图划分

直方图的生成对结果有很大影响，在HOSS算法中，有两种直方图：静态宽度直方图和动态宽度直方图。

1.静态宽度直方图：标准的直方图构建方法，在值范围内使用k个等宽箱。样本落入每个桶的频率（相对数量）作为箱子高度的估计。

2.动态宽度直方图：首先对所有值进行排序，然后每个箱子里装相同数量的 $\frac Nk$ 个样本，其中 $N$ 是总样本数， $k$ 是箱个数；直方图中的箱面积表示样本个数，所以每个箱的面积都是相同的，又因为箱的宽度是由箱中第一个值和最后一个值决定的，而所有箱的面积都一样，因此每一个箱的高度都是可计算的。箱越宽，跨度越大，概率也就越小。

关于如何这两种方法的优劣，HOSS论文上说的是: “The reason why both methods are offered in HBOS is due to the fact of having very different distributions of the feature values in real world data. Especially when value ranges have large gaps (intervals without data instances), the fixed bin width approach estimates the density poorly (a few bins may contain most of the data). Since anomaly detection tasks usually involve such gaps in the value ranges due to the fact that outliers are far away from normal data, we recommend using the dynamic width mode, especially if distributions are unknown or long tailed. Besides, also the number of bins k needs to be set. An often used rule of thumb is setting k to the square root of the number of instances N.” 大体意思是，当异常值和正常值相差很大时，动态宽度直方图效果会更好；同时，对于直方图的个数，推荐的设定值是样本总个数的平方根。

What We Talk about

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
异常检测-Task2

文章目录异常检测-Task2统计方法概述基于高斯分布的参数方法多元高斯分布高斯混合模型非参数方法-HOSS算法算法思想直方图划分异常检测-Task2记录DataWhale的异常检测的学习过程，使用的教材可以在此链接中下载。Task2介绍的是传统的基于统计方法的异常检测算法，主要可以分为两类，第一类是参数方法，介绍的是使用高斯分布对数据进行建模；第二类是非参数方法，介绍了Histogram-based Outlier Score(HBOS)算法[1]。最后介绍的一个HBOS算法的实例。统计方法概述统
复制链接

扫一扫

专栏目录