Coursea-吴恩达-machine learning学习笔记（十五）【week 9之Anomaly Detection】

最新推荐文章于 2019-05-12 15:53:13 发布

痞靥

最新推荐文章于 2019-05-12 15:53:13 发布

阅读量451

点赞数

分类专栏：机器学习文章标签：异常检测

本文链接：https://blog.csdn.net/u012347642/article/details/80862886

版权

机器学习专栏收录该内容

17 篇文章 0 订阅

订阅专栏

异常检测：
存在样本集 $\{x^{(1)},x^{(2)},\cdots,x^{(m)}\}$ ，通常假设这 $m$ 个样本都是正常的或者不异常的，对训练集数据建一个模型 $p(x)$ ，即对 $x$ 的分布概率建模，当建立完概率模型后，对新的样本 $x_{test}$ 来说，如果 $p(x_{test})\lt \varepsilon$ ，标记为不正常，否则，标记为正常。
异常检测最常见的应用：

欺诈检测
$x^{(i)}$ 为用户活动的特征值；
利用数据建立模型 $p(x)$ ，用来表示用户做出各种行为的可能性，即对应特征变量出现的概率；
检测用户的 $p(x)$ 是否小于 $\varepsilon$ 来定义行为异常用户。
工业生产领域
数据中心的计算机监控

高斯分布(正态分布)：
设 $x\in R$ ，如果 $x$ 的概率分布服从高斯分布(均值为 $\mu$ ，方差为 $\sigma^2$ )，则记做 $x\sim N(\mu,\sigma^2)$ ，高斯分布的概率密度公式：

p (x; μ, σ 2) = 1 2 π - - \sqrt σ e x p (- ( x - μ ) 2 2 σ 2)

$p(x;\mu,\sigma^2)={1\over \sqrt{2\pi}\sigma}exp(-{(x-\mu)^2\over 2\sigma^2})$
该公式的图形表示如下图：
这里写图片描述

μ μ $\mu$ 控制图中曲线的中心位置，

σ σ $\sigma$ 控制该曲线的宽度。
不同

μ μ $\mu$ 与

σ σ $\sigma$ 取值的概率密度曲线如下图所示：
这里写图片描述

因为这是一个概率分布曲线，所以曲线下的面积积分一定为1。

参数估计：
假设有一个数据集 $\{x^{(1)},x^{(2)},\cdots,x^{(m)}\}$ ， $x^{(i)}\in R$ ，如下图：
这里写图片描述
猜测每个样本 $x^{(i)}$ 服从高斯分布 $N(\mu,\sigma^2)$
则

μ = 1 m \sum i = 1 m x (i) σ 2 = 1 m \sum i = 1 m (x (i) - μ) 2

$\mu={1\over m}\sum\limits_{i=1}^mx^{(i)}\qquad \sigma^2={1\over m}\sum\limits_{i=1}^m(x^{(i)}-\mu)^2$

基于高斯分布的异常检测算法：
存在训练集 $\{x^{(1)},x^{(2)},\cdots,x^{(m)}\}$ ， $x^{(i)}\in R^n$
设 $x_1\sim N(\mu_1,\sigma_1^2),x_2\sim N(\mu_2,\sigma_2^2),x_3\sim N(\mu_3,\sigma_3^2),\cdots,x_n\sim N(\mu_n,\sigma_n^2)$
则模型 $P(x)=p(x_1;\mu_1,\sigma_1^2)p(x_2;\mu_2,\sigma_2^2)p(x_3;\mu_3,\sigma_3^2)\cdots p(x_n;\mu_n,\sigma_n^2)=\prod\limits_{j=1}^np(x_j;\mu_j,\sigma_j^2)$

异常检测算法步骤：

选择可以表征异常样本的特征值 $x_i$ ，得到样本集 $\{x^{(1)},x^{(2)},\cdots,x^{(m)}\}$ ；
拟合出参数 $\mu_1,\cdots,\mu_n,\sigma_1^2,\cdots,\sigma_n^2$
$μ j = 1 m \sum i = 1 m x (i) j σ 2 j = 1 m \sum i = 1 m (x (i) j - μ j) 2$ $\mu_j={1\over m}\sum\limits_{i=1}^mx_j^{(i)}\qquad \sigma_j^2={1\over m}\sum\limits_{i=1}^m(x_j^{(i)}-\mu_j)^2$
给出新样本 $x$ ，计算 $p(x)$ ：
$P (x) = \prod j = 1 n p (x j; μ j, σ 2 j) = \prod j = 1 n 1 2 π - - \sqrt σ j e x p (- ( x j - μ j ) 2 2 σ 2 j)$ $P(x)=\prod\limits_{j=1}^np(x_j;\mu_j,\sigma_j^2)=\prod\limits_{j=1}^n{1\over \sqrt{2\pi}\sigma_j}exp(-{(x_j-\mu_j)^2\over 2\sigma_j^2})$
如果 $P(x)\lt \varepsilon$ ，标注为异常。

当使用某个学习算法开发一个具体的机器学习应用时，常需要作出许多决定，如选择特征值等，如果找到某种评价算法的方式，直接返回一个数字来评价算法的好坏，那么做决定将会容易很多。
异常检测问题是一个非监督学习问题，使用无标签数据，但如果有一些带标签的数据可以指出异常/非异常样本，这就是可以评价异常检测算法的标准方法。

假设存在一些带标签数据(包含异常/非异常样本)，如果正常 $y=0$ ，否则 $y=1$ ；
训练集为无标签数据 $\{x^{(1)},x^{(2)},\cdots,x^{(m)}\}$ (假设均为正常/非异常样本)
交叉验证集： $\{(x_{cv}^{(1)},y_{cv}^{(1)}),\cdots,(x_{cv}^{(m_{cv})},y_{cv}^{(m_{cv})})\}$
测试集： $\{(x_{test}^{(1)},y_{test}^{(1)}),\cdots,(x_{test}^{(m_{test})},y_{test}^{(m_{test})})\}$
交叉验证集和测试集中包含异常样本。

举例：以飞机引擎为例
有 $10000$ 个正常引擎， $20$ 个异常引擎
(注：根据经验，通常 $y=1$ 的样本数为 $2\sim50$ 个， $y=0$ 的样本很多)

一种典型的数据分类：
训练集： $6000$ 个正常引擎；
交叉验证集： $2000$ 个正常引擎( $y=0$ )， $10$ 个异常引擎( $y=1$ )；
测试集： $2000$ 个正常引擎( $y=0$ )， $10$ 个异常引擎( $y=1$ )；
正常引擎的划分比例为 $6:2:2$ ，异常引擎的划分比例为 $0:1:1$ 。

接下来：
在训练集 $\{x^{(1)},x^{(2)},\cdots,x^{(m)}\}$ 上拟合模型 $p(x)$
在交叉验证集或测试集样本 $x$ 上，预测：

y = {\begin{cases} 1, & 如 果 p (x) < ε (异 常) \\ 0, & 如 果 p (x) ⩾ ε (正 常) \end{cases}

$y=\begin{cases} 1, & 如果\ p(x)\lt \varepsilon(异常)\\ 0, & 如果\ p(x)\geqslant \varepsilon(正常) \end{cases}$
因为该类样本比较偏斜，所以用到的评价度量指标为：

查准率/召回率
$F_1-score$

用交叉验证集选择参数 $\varepsilon$ ，尝试不同的 $\varepsilon$ 值，选出使 $F_1-score$ 最大的那个 $\varepsilon$ 。

异常检测 $VS$ 监督学习：

应用场景：

异常检测：正样本( $y=1$ )的数量很少(通常为 $0\sim20$ )，负样本( $y=0$ )的数量很多；
监督学习：正、负样本的数量都很多。

补充说明：

异常检测：存在多种不同的异常情况，对于任何学习算法，都很难从少量的正样本中学习到异常的全部情况，很多未知的异常无法从现有样本中学到；
监督学习：对算法来说，有充足的正样本来学习正样本的样子，未来的正样本类似于训练集中的样本。

应用举例：

异常检测：欺诈检测、工业生产、数据中心的计算机监控；
监督学习：垃圾邮件分类、天气预测、癌症分类。

异常检测算法的特征变量选择：
当应用异常检测时，对它的效率影响最大的因素之一是使用什么特征变量。
在使用异常检测算法之前，可以通过画出特征变量取值来看其是否服从高斯分布(注：虽然不是高斯分布，算法也可以正常运行)

$Octave$ 中画直方图用 $hist()$ 命令
如果数据不服从高斯分布，可以对数据进行一些转换，使其更像高斯分布。

例：
原特征变量分布如下图：
这里写图片描述
对其取 $log(x)$ 转换，特征分布如下：

常见的转换方式： $log(x)$ 、 $log(x+1)$ 、 $\sqrt{x}$ 、 $\sqrt[3]{x}$ 等

如何得到异常检测算法的特征变量？
先完整的训练出一个学习算法，然后在一组交叉验证集上运行算法，找出那些预测出错的样本，再看看能否找到一些其他的特征变量，来帮助学习算法在那些交叉验证集判断出错的样本中表现得更好。

为异常检测算法选择特征变量时，选取那些通常取值不会特别大也不会特别小的特征变量。

多元高斯分布
存在特征 $x\in R^n$ ，不要把 $p(x_1),p(x_2)\cdots$ 分开，而是建立一个 $p(x)$ 整体的模型。

多元高斯分布的参数包括 $\mu \in R^n$ ， $\Sigma\in R^{n\times n}$ (协方差矩阵)
概率密度公式为：

p (x; μ, Σ) = 1 ( 2 π ) n 2 | Σ | 1 2 e x p (- 1 2 (x - μ) T Σ - 1 (x - μ))

$p(x;\mu,\Sigma)={1\over (2\pi)^{n\over 2}\vert\Sigma\vert^{1\over 2}}exp(-{1\over 2}(x-\mu)^T\Sigma^{-1}(x-\mu))$

|Σ| | Σ | $\vert\Sigma\vert$ 为

Σ Σ $\Sigma$ 的行列式，

Octave O c t a v e $Octave$ 中用

det(Sigma) d e t ( S i g m a ) $det(Sigma)$ 实现。

不同 $\mu$ 与 $\Sigma$ 取值的概率密度曲线如下：
这里写图片描述

多元高斯分布的参数估计：
训练集 $\{x^{(1)},x^{(2)},\cdots,x^{(m)}\}$ ， $x^{(i)}\in R^n$

μ = 1 m \sum i = 1 m x (i) Σ = 1 m \sum i = 1 m (x (i) - μ) (x (i) - μ) T

$\mu={1\over m}\sum\limits_{i=1}^mx^{(i)}\qquad \Sigma={1\over m}\sum\limits_{i=1}^m(x^{(i)}-\mu)(x^{(i)}-\mu)^T$

基于多元高斯分布的异常检测算法：

用训练集拟合模型 $p(x)$
$μ = 1 m \sum i = 1 m x (i) Σ = 1 m \sum i = 1 m (x (i) - μ) (x (i) - μ) T$ $\mu={1\over m}\sum\limits_{i=1}^mx^{(i)}\qquad \Sigma={1\over m}\sum\limits_{i=1}^m(x^{(i)}-\mu)(x^{(i)}-\mu)^T$
对于一个新样本，计算
$p (x) = 1 ( 2 π ) n 2 | Σ | 1 2 e x p (- 1 2 (x - μ) T Σ - 1 (x - μ))$ $p(x)={1\over (2\pi)^{n\over 2}\vert\Sigma\vert^{1\over 2}}exp(-{1\over 2}(x-\mu)^T\Sigma^{-1}(x-\mu))$
如果 $p(x)\lt \varepsilon$ ，标记为异常。

原始模型： $P(x)=p(x_1;\mu_1,\sigma_1^2)p(x_2;\mu_2,\sigma_2^2)\cdots p(x_n;\mu_n,\sigma_n^2)$
对应一种多元高斯分布模型： $p(x;\mu,\Sigma)={1\over (2\pi)^{n\over 2}\vert\Sigma\vert^{1\over 2}}exp(-{1\over 2}(x-\mu)^T\Sigma^{-1}(x-\mu))$
当 $\Sigma=\left[ \begin{matrix} \sigma_1^2&&&\\ &\sigma_2^2&&\\ &&\ddots&\\ &&&\sigma_n^2 \end{matrix} \right]$ 时。

原始模型 $VS$ 多元高斯分布：
特征关联：

原始模型：手动新建一个特征值来捕捉 $x_1,x_2$ 不正常组合值的异常情况；
多元高斯分布：自动捕捉不同特征量之间的相关性。

运算量：

原始模型：运算量小，适用于特征变量很多( $n$ 很大)的情况；
多元高斯分布：运算量大。

适用情况：

原始模型：当训练集很小( $m$ 很小)时也适用；
多元高斯分布： $m$ 必须大于 $n$ (最好 $m\geqslant 10n$ )，即样本数量一定要大于特征变量的数量。

当使用多元高斯分布时，如果发现 $\Sigma$ 是不可逆的，通常有两种情况：

不满足 $m\gt n$ 的条件；
有冗余特征变量。

痞靥

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Coursea-吴恩达-machine learning学习笔记（十五）【week 9之Anomaly Detection】

异常检测：存在样本集{x(1),x(2),⋯,x(m)}{x(1),x(2),⋯,x(m)}\{x^{(1)},x^{(2)},\cdots,x^{(m)}\}，通常假设这mmm个样本都是正常的或者不异常的，对训练集数据建一个模型p(x)p(x)p(x)，即对xxx的分布概率建模，当建立完概率模型后，对新的样本xtestxtestx_{test}来说，如果p(xtest)&amp;amp;amp;lt;εp(xtes...
复制链接

扫一扫

专栏目录