【学习笔记】斯坦福大学公开课（机器学习）之生成学习算法：GDA

最新推荐文章于 2021-04-04 19:48:24 发布

好奇的大白

最新推荐文章于 2021-04-04 19:48:24 发布

阅读量641

点赞数

分类专栏：机器学习文章标签：机器学习算法高斯判别分析模型生成学习算法

本文链接：https://blog.csdn.net/li_ximin/article/details/73322575

版权

机器学习专栏收录该内容

18 篇文章 0 订阅

订阅专栏

在之前的算法学习中，学到的都是通过建立 $P(y|x;\theta)$ （已知x的条件分布）模型来做算法学习。比如，现在要分辨两种动物，大象（ $y=1$ ）和狗( $y=0$ )，从之前的学习中，我们可以知道，需要从给定的训练数据集的特征 $x$ 中，学习到通过特征值来判断结果的模型。
现在换种思路，我们分别建立模型来表示大象或狗，在分辨一个新动物时，把新动物按照这两种动物的模型分别做运算，看看这个动物更像哪一种模型。
以上就有两种学习算法，一种是通过一种模型直接学习到条件分布 $p(y|x)$ ，或者说是通过特征输入 $x$ 预测出结果输出 $y$ 的算法叫做判别学习算法（discriminative learning algorithms），而另一种算法，把各种分类对应的特征来建模，即建立条件分布 $p(x|y)$ （和 $p(y)$ ），就叫做生成学习算法（generative learning algorithms），在本例中，就是建立两个模型一个是大象的特征分布 $p(x|y=1)$ 和狗的特征分布 $p(x|y=0)$ 。
当知道了 $p(y)$ （类先验）和 $p(x|y)$ ，我们的算法就能运用贝叶斯(Bayes)法则来推导出 $y$ 的条件概率：

p (y | x) = p ( x | y ) p ( y ) p ( x )

$p(y|x)=\frac{p(x|y)p(y)}{p(x)}$
其中，分母

p(x)=p(x|y=1)p(y=1)+p(x|y=0)p(y=0) $p(x)=p(x|y=1)p(y=1)+p(x|y=0)p(y=0)$
如果为了计算y=1和0的概率谁更大一些，我们不需要计算分母：

argmax y (p (y | x)) = argmax y (p ( x | y ) p ( y ) p ( x )) = argmax y (p (x | y) p (y))

$\begin{align} \operatorname*{argmax}\limits_{y}(p(y|x)) &=\operatorname*{argmax}\limits_{y}(\frac{p(x|y)p(y)}{p(x)}) \\ &=\operatorname*{argmax}\limits_{y}({p(x|y)p(y)}) \end{align}$

高斯判别分析 (GDA，Gaussian Discrimniant analysis)

多元正态分布

在这个模型中， $p(x|y)$ 假设成为多元正态分布。
n维的多元正态分布，也叫做多元高斯分布，参数是均值向量（mean vector） $\mu\in R^n$ ，还有一个参数是协方差（covariance matrix）矩阵 $\sum \in R^{n*n}$ ，其中 $\sum \geq 0$ 是对称的半正定矩阵。分布写成数学形式是 $N(\mu,\sum)$ ，它的密度表示如下：

p (x; μ, \sum) = 1 ( 2 π ) n / 2 | \sum | 1 / 2 e x p (- 1 2 (x - μ) T \sum - 1 (x - μ))

$p(x;\mu,\sum)=\frac{1}{(2\pi)^{n/2}|\sum|^{1/2}}exp(-\frac{1}{2}(x-\mu)^T\sum\ ^{-1}(x-\mu))$
其中

|∑| $|\sum|$ 表示矩阵

∑ $\sum$ 的行列式。
任何属于该分布

N(μ,∑) $N(\mu,\sum)$ 的随机变量

X $X$ 的均值和协方差分别是：

E [X] = \int x x p (x; μ, \sum) d x = μ

$E[X]=\int_xxp(x;\mu,\sum)dx=\mu$

C o v (X) = \sum

$Cov(X)=\sum$
与一般的普通正态分布一样，均值决定了分布的中心点的位置，而方差决定了分布的范围。

高斯判别分析模型

当我们遇到特征 $x$ 是连续随机变量时，我们就能用GDA模型，这个模型中，主要是把 $p(x|y)$ 构建成为多元正态分布。具体模型如下：

y ∽ B e r n o u l l i (ϕ)

$y ∽ Bernoulli(\phi)$

x | y = 0 ∽ N (μ 0, \sum)

$x|y=0 ∽ N(\mu_0,\sum)$

x | y = 1 ∽ N (μ 1, \sum)

$x|y=1 ∽ N(\mu_1,\sum)$
写出他们的分布：

P (y) = ϕ y (1 - ϕ) (1 - y)

$P(y)=\phi^y(1-\phi)^{(1-y)}$

P (x | y = 0) = 1 ( 2 π ) n / 2 | \sum | 1 / 2 e x p (- 1 2 (x - μ 0) T \sum - 1 (x - μ 0))

$P(x|y=0)=\frac{1}{(2\pi)^{n/2}|\sum|^{1/2}}exp(-\frac{1}{2}(x-\mu_0)^T\sum\ ^{-1}(x-\mu_0))$

P (x | y = 1) = 1 ( 2 π ) n / 2 | \sum | 1 / 2 e x p (- 1 2 (x - μ 1) T \sum - 1 (x - μ 1))

$P(x|y=1)=\frac{1}{(2\pi)^{n/2}|\sum|^{1/2}}exp(-\frac{1}{2}(x-\mu_1)^T\sum\ ^{-1}(x-\mu_1))$
在这里，模型中的参数是

ϕ,∑,μ0,μ1 $\phi,\sum,\mu_0,\mu_1$ （2个分布都用同一个协方差矩阵

∑ $\sum$ ，分别用两个不同的均值）。对以上的数据采用对数似然函数：

l (ϕ, μ 0, μ 1, \sum) = l o g \prod i = 1 m p (x (i), y (i); ϕ, μ 0, μ 1, \sum) = l o g \prod i = 1 m p (x (i) | y (i); μ 0, μ 1, \sum) p (y (i); ϕ)

$\begin{align}l(\phi,\mu_0,\mu_1,\sum)&=log\prod_{i=1}^{m}p(x^{(i)},y^{(i)};\phi,\mu_0,\mu_1,\sum)\\ &=log\prod_{i=1}^{m}p(x^{(i)}|y^{(i)};\mu_0,\mu_1,\sum)p(y^{(i)};\phi) \end{align}$
最大化似然函数后，可以算出参数的值：

ϕ μ 0 μ 1 \sum = 1 m \sum i = 1 m 1 {y (i) = 1} = \sum m i = 1 1 { y ( i ) = 0 } x ( i ) \sum m i = 1 1 { y ( i ) = 0 } = \sum m i = 1 1 { y ( i ) = 1 } x ( i ) \sum m i = 1 1 { y ( i ) = 1 } = 1 m \sum i = 1 m (x (i) - μ y (i)) (x (i) - μ y (i)) T

$\begin{align} \phi&=\frac{1}{m}\sum_{i=1}^{m}1\{{y^{(i)}=1}\}\\ \mu_0&=\frac{\sum_{i=1}^{m}1\{y^{(i)}=0\}x^{(i)}}{\sum_{i=1}^{m}1\{{y^{(i)}=0\}}} \\ \mu_1&=\frac{\sum_{i=1}^{m}1\{y^{(i)}=1\}x^{(i)}}{\sum_{i=1}^{m}1\{{y^{(i)}=1\}}} \\ \sum&=\frac{1}{m}\sum_{i=1}^{m}(x^{(i)}-\mu_{y^{(i)}})(x^{(i)}-\mu_{y^{(i)}})^T \end{align}$
把模型用图形来表示的：
这里写图片描述