20170202 Coursera Stanford-MachineLearning/Week9

最新推荐文章于 2020-03-01 17:22:11 发布

LiuSpark

最新推荐文章于 2020-03-01 17:22:11 发布

阅读量1.1k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/SPARKKKK/article/details/54837858

版权

机器学习专栏收录该内容

30 篇文章 0 订阅

订阅专栏

Week9:Anomaly detection/Recommender Systems 异常检测/推荐系统

Anomaly detection 异常检测

训练样本在中心的概率最大所以test如果在中心表明正常

Gaussian Distribution 高斯分布(正态分布)

x \sim N (μ, σ 2) P (x; μ, σ 2) = 1 2 π ‾ ‾ ‾ \sqrt σ e - ( x - μ ) 2 2 σ 2

$x \sim N(\mu,\sigma^{2}) \\ P(x;\mu,\sigma^{2})=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}}$

设有m个训练集n个特征向量

开发和评价一个异常检测算法

因为数据是倾斜的(y=0正常样本的数目远大于y=1不正常样本)，所以要用其他方法去检验算法的好坏
$\epsilon$ 是一个阈值,可以选择一个合适的 $\epsilon$ 使得F1-score的值最大

由于异常样本本来就是少量的
所以在训练集中只有正常样本，但在CVset和Testset里面有异常样本(少量)和正常样本

Anomaly Detection vs. Supervised Learning

使用异常检测的原因一般有

异常样本(y=1)特别少但是正常样本(y=0)特别多
异常样本的种类特别多，未来的异常可能与我们已见过的完全不同

使用监督学习的原因：正负样本的数量都特别多，算法可以判断样本的类别

特征向量的选择

让特征向量的数据看起来更像高斯分布

我们希望 $p(x)$ 的值对于正常样本比较大，对于异常样本比较小。
但有时候 $p(x)$ 的值对于正常异常样本都比较大，这个时候就需要添加特征向量 $x_i$ （也可以把特征变量相组合得到新的特征变量，如 $x_{4}=\frac{x_{2}}{x_{3}}$ ）去改变 $p(x)$

Multivariate Gaussian Distribution 多元高斯分布

用一个 $p(x)$ 模型，而不是建立多个 $p(x_{i})$ 模型

x \in ℝ n, μ \in ℝ n, Σ \in ℝ n \times n (c o v a r i a n c e m a t r i x 协 方 差 矩 阵) p (x; μ, Σ) = 1 ( 2 π ) n 2 | Σ | 1 2 e x p (- 1 2 (x - μ) T Σ - 1 (x - μ)) T r a i n i n g s e t {x (1), x (2), . . ., x (m)}, x (i) \in ℝ n μ = 1 m \sum i = 1 m x (i), Σ = 1 m \sum i = 1 m (x (i) - μ) (x (i) - μ) T

$x\in\mathbb{R}^{n},\mu\in\mathbb{R}^{n},\Sigma\in\mathbb{R}^{n×n}(covariance\ matrix\ 协方差矩阵)\\ p(x;\mu,\Sigma)=\frac{1}{{(2\pi)}^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}exp(-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu))\\ Training \ set\ \{x^{(1)},x^{(2)},...,x^{(m)}\}\ ,\ x^{(i)}\in\mathbb{R}^{n}\\ \mu=\frac{1}{m}\sum\limits_{i=1}^{m}x^{(i)}\ ,\ \Sigma=\frac{1}{m}\sum\limits_{i=1}^{m}(x^{(i)}-\mu)(x^{(i)}-\mu)^{T}$

协方差矩阵非对角线元素非0时表明向量之间有线性关系