生成学习算法.高斯判别分析(GDA).GDA与Logistic模型

http://blog.csdn.net/v1_vivian/article/details/52190572

《Andrew Ng 机器学习笔记》这一系列文章文章是我再观看Andrew Ng的Stanford公开课之后自己整理的一些笔记，除了整理出课件中的主要知识点，另外还有一些自己对课件内容的理解。同时也参考了很多优秀博文，希望大家共同讨论，共同进步。

网易公开课地址：http://open.163.com/special/opencourse/machinelearning.html

本篇博文涉及课程五：生成学习算法

本课主要内容有：

（1）生成学习算法

（2）高斯判别分析(GDA)

生成学习算法

在线性回归和Logistic回归这些学习算法中我们探讨的模型都是p(y|x;θ)，即给定x的情况探讨y的条件概率分布。
例如二分类问题，我们之前的都是在解空间中寻找一条直线，从而把两种类别的样例分开，对于新的样例，只要判断在直线的哪一侧即可；这种直接对问题求解的方法可以称为判别学习方法。

而生成学习算法则是先对两个类别分别进行建模，然后用新的样例去匹配两个模板，匹配度较高的作为新样例的类别。

也就是说，判别学习方法是直接对p(y|x)进行建模或者直接学习输入空间到输出空间的映射关系，其中，x是某类样例的特征，y是某类样例的分类标记。
而生成学习算法是对p(x|y)（条件概率）和p(y)（先验概率）进行建模，然后按照贝叶斯法则求出后验概率p(y|x)：

使得后验概率最大的类别y即是新样例的预测分类：

事情还没有发生,要求这件事情发生的可能性的大小,是先验概率。
事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率。

高斯判别分析（GDA）

高斯判别分析是一种生成学习算法，在该模型中，我们假设p(x|y)服从混合正态分布。通过训练确定参数值，新样本通过已建立的模型计算出属于不同类别的概率，我们选取概率最大的即为样本所属的类。

混合正态分布

混合正态分布也叫做混合高斯分布，是正态分布在多维变量下的扩展。它的期望和协方差矩阵为多元的：期望 $\mu\in R^{n}$ ,协方差 $\Sigma\in R^{n\times n}$ （n为多维变量的向量长度），协方差具有对称性和正定性（ $\Sigma\in R^{n\times n}$ 是一个正定矩阵）。混合正态分布： $X\sim N(\mu,\Sigma)$ 。

混合正态分布的概率密度函数为（其中， $\mu$ 为期望， $|\Sigma|$ 表示行列式的值）：

$p(x;\mu,\Sigma)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}exp(-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu))$

对于服从混合正态分布的随机变量x，均值的计算公式为：

协方差由协方差函数Cov(X)得到，计算公式如下：

$Cov(X)=E[(X-E(X))(X-E(X))^{T}]$

用图形描述二维高斯分布的先关性质：

以上三个图形的期望都为： $\mu=[0,0]^{T}$ ，从左至右，三幅图的协方差分别为： $\Sigma=I$ ， $\Sigma=0.6I$ ， $\Sigma=2I$ 。

以上三个图形的期望都为： $\mu=[0,0]^{T}$ ，从左至右，三幅图的协方差分别的：

$\Sigma=\begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}$ $\Sigma=\begin{bmatrix} 1 & 0.5 \\ 0.5 & 1 \end{bmatrix}$ $\Sigma=\begin{bmatrix} 1 & 0.8 \\ 0.8 & 1 \end{bmatrix}$

可以看到随着矩阵的逆对角线数值增加，图形延 $(x_1=x_2)$ 方向进行压缩。即图形在这个方向更加“扁”。

从等高线来看，三幅图分别为：

继续调整协方差，三幅图的协方差分别为：

从等高线来看，三幅图分别为：

以上三幅图保持协方差不变，从左至右，期望值分别为

$\mu=\begin{bmatrix} 1 \\ 0 \end{bmatrix}$ ； $\mu=\begin{bmatrix} -0.5 \\ 0 \end{bmatrix}$ ； $\mu=\begin{bmatrix} -1 \\ -1.5 \end{bmatrix}$

可以看出，随着期望的改变，图形在平面上平移，而其他特性保持不变。

高斯判别分析模型

高斯判别分析模型针对的是输入的特征值x是连续值的分类问题。

为了简化模型，假设特征值为二分类，分类结果服从0-1分布。

模型基于这样的假设：（通常模型有两个不同的期望，而有一个相同的协方差。）

$y\sim Bernoulli(\phi)$

$x|y=0 \sim N(\mu_0 , \Sigma)$

$x|y=1 \sim N(\mu_1 , \Sigma)$

他们的概率密度为（其中，待估计的参数为 $\phi,\Sigma,\mu_{0},\mu_{1}$ ）：

$p(y)=\phi^{y}(1-\phi)^{1-y}$

$p(x|y=0)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}exp(-\frac{1}{2}(x-\mu_{0})^{T}\Sigma^{-1}(x-\mu_{0}))$

$p(x|y=1)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}exp(-\frac{1}{2}(x-\mu_{1})^{T}\Sigma^{-1}(x-\mu_{1}))$

该模型的极大似然对数方程为：

各参数的极大似然估计如下：

$\phi=\frac{1}{m}\sum_{i=1}^{m}{\#\{y^{(i)}=1\}}$

$\mu_{0}=\frac{\sum_{i=1}^{m}\#\{y^{(i)}\}x^{(i)}}{\sum_{i=1}^{m}{\#\{y^{(i)}=0\}}}$

$\mu_{1}=\frac{\sum_{i=1}^{m}\#\{y^{(i)}\}x^{(i)}}{\sum_{i=1}^{m}{\#\{y^{(i)}=1\}}}$

$\Sigma=\frac{1}{m}\sum_{i=1}^{m}{(x^{(i)}-\mu_{y^{(i)}})(x^{(i)}-\mu_{y^{(i)}})^{T}}$

在对 $\phi,\Sigma,\mu_{0},\mu_{1}$ 计算完成之后，将新的样本x带入进建立好的模型中，计算出 $p(y=1|x)$ 、 $p(y=0|x)$ ，选取概率更大的结果为正确的分类。

二维GDA举例：

这幅图可以看出，我们用两个二维高斯分布分别对两类数据进行拟合，他们使用相同的协方差矩阵；但却有不同的均值；在直线所示的部分，p(y=1|x)=p(y=0|x)=0.5。

GDA与Logistic模型

在GDA中，我们使用p(x|y)p(y)作为p(y|x)的拟合，可以得到：

假如我们将 $p(y=1|x;\phi,\mu_{0},\mu_{1},\Sigma)$ 视作关于x的函数，该函数可以表示成logistic回归形式（其中， $\theta$ 可以用以 $\phi,\Sigma,\mu_{0},\mu_{1}$ 为变量的函数表示。）：

$p(y=1|x;\phi,\mu_{0},\mu_{1},\Sigma)=\frac{1}{1+exp(-\theta^{T}x)}$

GDA的后验分布可以表示成逻辑分布形式的合理性，在此不做证明。

举例说明GDA与Logistic模型之间的关系：

也就是说，当使用GDA模型时，p(x|y)属于高斯分布，计算p(y|x)时，几乎能得到和logistic回归中使用的sigmiod函数一样的函数，但实际上还是存在本质区别。

实际上，可以证明，不仅仅当先验概率分布服从混合高斯分布时可以推导出逻辑回归模型，当先验概率分布属于指数分布族中的任何一个分布（比如泊松分布）时都可以推导出逻辑回归模型；但，反之则不成立，如果可表示成logistic回归函数形式，并不代表 p(x|y) 服从指数分布族分布。这也说明了逻辑回归模型在建模上的鲁棒性。当然，如果混合高斯模型的假设是正确的，那么，GDA具有更高的拟合度。基于这些原因，在实践中使用logistic回归比使用GDA更普遍。

目前，我们得到了推导逻辑回归模型的两种方法：
（1）通过指数分布族来推导。
（2）通过生成学习假设先验概率分布的方式进行推导。

那么如何选择GDA与逻辑回归模型呢？
由上面的分析可以知道，GDA比逻辑回归有更多的前置假设。当数据服从或大致服从正态分布时， GDA会具有更高的拟合度，因为GDA利用了更多的信息构建模型。但是当数据不服从正态分布时，那么逻辑回归更有效，因为它做出更少的假设，构建的模型更加强壮，更加具有鲁棒性。生成学习还有另外的一个好处，就是可以使用比判别学习模型使用更少的数据构建出强壮的模型。