15 异常检测

最新推荐文章于 2024-05-31 23:08:56 发布

lovecencen1893

最新推荐文章于 2024-05-31 23:08:56 发布

阅读量292

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/cluster1893/article/details/80659579

版权

机器学习专栏收录该内容

16 篇文章 3 订阅

订阅专栏

15 异常检测

15 异常检测

15.1 问题的动机

根据已有数据集建立概率模型p(x):

x = {异 常 样 本 正 常 样 本 if p(x) < ϵ otherwise

$x = \begin{cases} 异常样本 & \text{if p(x) <} \epsilon \\ 正常样本 & \text{otherwise}\\ \end{cases}$

15.2 高斯分布

p (x; μ, σ 2) = 1 2 π ‾ ‾ ‾ \sqrt σ e x p (- ( x - μ ) 2 2 σ 2)

$p(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x - \mu)^2}{2\sigma^2})$
叫做

x∼N(μ,σ2) x ∼ N ( μ , σ 2 ) $x \sim N(\mu, \sigma^2)$
其中，

μ = 1 m \sum i = 1 m x (i)

$\mu=\frac{1}{m}\sum_{i=1}^mx^{(i)}$
总体的方差（

σ σ $\sigma$ 是标准差）：

σ 2 = 1 m \sum i = 1 m (x (i) - μ) 2

$\sigma^2 =\frac{1}{m}\sum_{i=1}^m(x^{(i)} - \mu)^2$
样本的方差：

σ 2 = 1 m - 1 \sum i = 1 m (x (i) - μ) 2

$\sigma^2 =\frac{1}{m-1}\sum_{i=1}^m(x^{(i)} - \mu)^2$
但其实样本的标准差无所谓减不减一，统计量小的时候无意义，统计量大的时候有更能引起误差的地方。

15.3 算法

选择可以表示异常样本的特征 $x_j$
计算特征 $\mu_1, \mu_2,...,\mu_n,\sigma_1^2,\sigma_2^2,...,\sigma_n^2$ :
$μ j = 1 m \sum i = 1 m (x (i) j)$ $\mu_j=\frac{1}{m}\sum_{i=1}^m(x_j^{(i)})$
$σ 2 j = 1 m \sum i = 1 m (x (i) j - μ j) 2$ $\sigma_j^2 = \frac{1}{m}\sum_{i=1}^m(x^{(i)}_j-\mu_j)^2$
对于给出的样本 $x$ ,计算 $p(x)$ :
$p (x) = \prod j = 1 n p (x j; μ j, σ 2 j) = \prod j = 1 n 1 2 π ‾ ‾ ‾ \sqrt σ j e x p (- ( x j - μ j ) 2 2 σ 2 j)$ $p(x) = \prod_{j=1}^np(x_j;\mu_j,\sigma_j^2)=\prod_{j=1}^n\frac{1}{\sqrt{2\pi}\sigma_j}exp(-\frac{(x_j - \mu_j)^2}{2\sigma_j^2})$
如果 $p(x)<\epsilon,$ $x$ 为异常点

15.4 开发和评估

现在有一些带标签的数据，有正常数据和异常数据
规定 $y=0 \ if \ normal$ , $y=1\ if\ anomalous$
训练集： $x^{(1)}, x^{(2)},...,x^{(m)}$ ，即使存在少量异常数据也无所谓。
交叉验证集： $(x_{cv}^{(1)},y_{cv}^{(1)}),...,(x_{cv}^{(m_{cv})},y_{cv}^{(m_{cv})})$
测试集： $(x^{(1)}_{test},y^{(1)}_{test}),...,(x^{(m_{test})}_{test},y^{(m_{test})}_{test})$
比如：
10000个正常引擎
20个异常引擎
训练集：6000个正常的引擎
CV：2000个正常引擎，10个异常引擎
Test: 2000个正常引擎，10个异常引擎

$\$	预测正例	预测反例
现实正例	TP	FN
现实反例	FP	TN

精确率： $precision = \frac{TP}{TP + FP}$ 预测出的正例中真的为正例的比例
召回率: $recall = \frac{TP}{TP + FN}$ ,现实所有正例中预测出的正例比例
$F_1 = \frac{2PR}{P+R}$

评价：
- 根据训练集数据，计算 $\mu$ 和 $\sigma^2$ ，构建 $p(x)$
- 根据交叉验证集，用 $F_1$ 、精确率与召回率的比例，尝试不同 $\epsilon$
- 根据 $\epsilon$ , 针对测试集预测，计算 $F_1$ 、精确率与召回率的比例

15.5 异常检测与监督学习对比

正向样本在异常检测中即为异常点

异常检测	监督学习
非常少的正向样本，数据集很偏斜	大量的正向样本和负向样本
有很多不同类的异常样本，很难从正向样本中学到异常的样子，未来出现的异常可能和现有异常都不同	充足的正向样本，可以通过算法得到正向样本的形态，未来的正向样本和训练集的正向样本很像

异常检测	监督学习
欺诈行为检测	垃圾邮件分类
生产飞机引擎	天气预报
检测数据中心的机器	肿瘤分类

15.6 选择特征

调整特征使其服从高斯分布

画出数据或者数据特征的直方图

如果这是 $x$ 的特征 $x_1$ 的分布图，那么让 $x_1 = log(x_1)$ 。
或者 $x_1 = log(x_1 + C)$
或者 $x_1 = x_1^{\frac{1}{2}}$ ，这个指数可以调整。
调整特征使其看起来像高斯分布。

异常检测算法的误差分析

常见问题：
$p(x)$ 将异常数据预测为正常数据，因为其具有高的 $p(x)$ 值。
这时，去分析预测错误的数据，尝试找到原因，可能会发现需要增加新特征。
结合新特征后，异常数据将不再具有高 $p(x)$ 值。
x2是新的特征
x2是新特征。

组合特征产生新特征

我们选择的特征不能特别大，也不能特别小。
反过来说，我们需要在异常时候能过特别大或者特别小的值作为特征。
在计算机中心，选择四个特征：
- $x_1$ = 内存
- $x_2$ = 磁盘访问数/秒
- $x_3$ = CPU负载
- $x_4$ = 网络通信量
现在有一个新的类型的异常，CPU的负载高，网络通信量低，即，一个特征大，一个特征小，为了突出这种异常，组合上面的异常：
$x_5 =$ $CPU负载 \over 网络通信量$
那么，如果这种异常发生，特征会极其大。
即，可以通过组合现有特征，产生更明显的特征。

15.7 多元高斯分布

希望能改变高斯分布的边界，从红色线变到蓝色线，这样，像绿色的异常点就不会被误预测为正常点。

定义

$x \in R^n$
模型 $p(x)$ 不是 $p(x_1)、p(x_2)...$ 的乘积。
参数：
$\mu \in R^n$ ，协方差矩阵 $\ \Sigma \in R^{n * n}$

p (x; μ, Σ) = 1 ( 2 π ) n / 2 | Σ | 1 / 2 e x p (- 1 2 (x - μ) T Σ - 1 (x - μ))

$p(x;\mu,\Sigma) = \frac{1}{(2\pi)^{n/2}|\Sigma|^{1/2}}exp(-\frac{1}{2}(x - \mu)^T\Sigma^{-1}(x-\mu))$

直观理解

$\Sigma$ 大小变化对正态分布带来的影响

对角线：数值越大，越低，占地面积越大

对角线：数值之间差距越大，越椭圆

反对角线：x1与x2正相关，数值越大，越窄越高；

反对角线：x1与x2负相关，数值越大，越窄越高；

$\mu$ 大小变化对正态分布的影响

影响中心的位置

15.8 多元高斯分布做异常检测

1. 根据训练集计算 $\mu$ 、 $\Sigma$ ，得到模型 $p(x)$
2. 对一个给定的新样本 $x$ ，计算 $p(x)$ ，如果 $p(x) < \epsilon$ ，则为异常样本

与原始模型的关系

原始模型是多元高斯分布关于轴对称的特例。也就是其轴与坐标轴平行。
即，原始模型是多元高斯分布的参数 $\Sigma$ 为对角阵的情况（除对角线外，其他元素为零）

原高斯模型	多元高斯模型
当特征之间有相关性的时候，手动创建特征去捕捉异常	自动捕获特征之间的相关性
计算代价小	计算代价大
训练集小也可以检测	必须 m > n，否则 $\Sigma$ 不可逆;一般 m > 10n; 如果特征冗余， $\Sigma$ 也不可逆

lovecencen1893

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
15 异常检测

15 异常检测15 异常检测15.1 问题的动机15.2 高斯分布15.3 算法15.4 开发和评估15.5 异常检测与监督学习对比15.6 选择特征调整特征使其服从高斯分布异常检测算法的误差分析组合特征产生新特征15.7 多元高斯分布定义直观理解ΣΣ\Sigma大小变化对正态分布带来的影响μμ\mu大小变化对正态分布的影响15.8 多元高斯分布做...
复制链接

扫一扫