【Machine Learning, Coursera】机器学习Week9 异常检测笔记

最新推荐文章于 2020-03-01 17:22:11 发布

Aki-Z

最新推荐文章于 2020-03-01 17:22:11 发布

阅读量369

点赞数 2

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_42395916/article/details/84833616

版权

机器学习专栏收录该内容

23 篇文章 1 订阅

订阅专栏

ML:Anomaly Detection

1. Introduction

1.1 Motivation

异常检测的应用场景：

Fraud detection
异常交易行为检测，反欺诈
Manufacturing
异常工业零件检测
Monitoring computers in a data center
数据中心异常计算机检测
$\quad$

1.2 Mathematics

假设 $x^{(i)} \ (i=1,2,...,m)$ 为总体X中的样本，总体X服从正态分布， $X$ ~ $N(\mu, \sigma^2)$
总体均值 $\mu$ 、总体方差 $\sigma^2$ 的估计量分别为：
$\mu=\frac{1}{m}\sum_{i=1}^m x^{(i)}$
$\sigma^2=\frac{1}{m}\sum_{i=1}^m (x^{(i)}-\mu)^2$ (正确的总体方差的无偏估计量应除以m-1，简单起见，机器学习中不做此区分)

判断 $x^{(i)}$ 是否为异常值的方法如下：
1、给定阈值 $\epsilon$
2、将 $x^{(i)}$ 代入正态分布的概率密度函数 $p(x;\mu,\sigma^2)=\frac{1}{\sigma\sqrt{2\pi}}e^{(-\frac{(x-\mu)^2}{2\sigma^2})}$
3、若 $p(x^{(i)};\mu,\sigma^2)<\epsilon$ ，则 $x^{(i)}$ 为异常值
$\quad$

1.3 Algorithm

Training set{ $x^{(1)}$ , $x^{(2)}$ ,…, $x^{(m)}$ } (where $x^{(i)}∈\R^n$ )

假设各特征变量互相独立且都服从正态分布，则n个变量的联合概率密度函数为
$p(x;\mu,\sigma^2)= \prod_{j=1}^n p(x_j;\mu_j,\sigma_j^2)=\prod_{j=1}^n \frac{1}{\sigma_j\sqrt{2\pi}}exp^{- (\frac{(x-\mu_j)^2}{2\sigma_j^2})}$

Step 1. 选择可用于检测异常的特征
e.g. 在异常用户检测中，可选用的特征包括登录频率、访问次数、交易次数、发帖次数、打字速度等

Step 2. 参数估计
$\mu_j=\frac{1}{m}\sum_{i=1}^m x_j^{(i)}$
$\sigma_j^2=\frac{1}{m}\sum_{i=1}^m (x_j^{(i)}-\mu_j)^2$

Step 3. 给定新样本x，计算p(x)，并与阈值 $\epsilon$ 比较
如果 $p(x)<\epsilon$ ，则x为异常样本

$\quad$

2. Building an Anomaly Detection System

如何评估一个异常检测系统？

2.1 Developing and evaluating an anomaly detection system

-real number evaluation有助于做出决策
用一个具体的数字评估算法

例：
10000 个正常引擎
20 个异常引擎

按照6：2：2的比例划分
Training set：6000个正常引擎
CV set：2000个正常引擎和10个异常引擎
Test set：2000个正常引擎和10个异常引擎

评估步骤：
Step 1：用训练集训练模型
Step 2：对CV和Test set， $p(x)<\epsilon$ 时预测 $y = 1$ ，反之 $y = 0$
Step 3：用F1 Score评估模型效果
F1的计算参见《偏斜数据集的处理》：https://blog.csdn.net/weixin_42395916/article/details/82665569

CV集还可用于 $\epsilon$ 的选择：多次尝试，取使F1 Score最大的 $\epsilon$
$\quad$

2.2 Choosing what features to use

特征的选择会显著影响异常检测算法的效率

理想的特征：

有代表性
在异常情况下值会很大或很小
正态分布
非正态分布的特征，处理后使其变成渐进的正态分布，如log(x)

例：特征的构建
在数据中心异常计算机检测中，可使用 $\frac{CPU\ load}{network\ traffic}$ 作为一个特征
$\quad$

3. Multivariate Gaussian/Normal Distribution

异常检测的两种算法：

每个特征分开建模（即假设每个特征相互独立）
$\prod_{j=1}^n p(x_j;\mu_j,\sigma_j^2)=\prod_{j=1}^n \frac{1}{\sigma_j\sqrt{2\pi}}exp^{- (\frac{(x-\mu_j)^2}{2\sigma_j^2})}$
整体分布建模（考虑了特征间的相关性）
$p(x;\mu,\sum)=\frac{1}{(2\pi)^\frac{n}{2}|\sum|^{\frac{1}{2}}}exp{(-\frac{1}{2}(x-\mu)^T\sum^{-1}(x-\mu))}$