第五课.高斯判别分析

最新推荐文章于 2022-05-10 22:54:45 发布

tzc_fly

最新推荐文章于 2022-05-10 22:54:45 发布

阅读量336

点赞数 1

分类专栏：随机过程与概率图模型

本文链接：https://blog.csdn.net/qq_40943760/article/details/115588605

版权

随机过程与概率图模型专栏收录该内容

23 篇文章 17 订阅

订阅专栏

概率生成式模型

概率判别式模型直接对条件概率 $p (Y ∣ X)$ 建模，比如逻辑回归，先计算 $p (y = 1 ∣ x)$ 和 $p (y = 0 ∣ x)$ 的概率值，再通过概率值判断分类结果取0还是1；
概率生成式模型关心的是 $p (y = 0 ∣ x)$ 和 $p (y = 1 ∣ x)$ 两个概率哪个更大，只是比较二者的大小，不是一味地求 $p (y ∣ x)$ 的具体值；引入贝叶斯公式：
$p(y|x)=\frac{p(x|y)p(y)}{p(x)}$
分母 $p (x)$ 是样本的概率，一般为常数，因此有 $p (y ∣ x)$ 正比于 $p (x ∣ y) p (y)$ ，即正比于联合概率；所以有生成式模型的表达：
$y=argmax_{y\in\left\{0,1\right\}}p(y|x)=argmax_{y\in\left\{0,1\right\}}p(x|y)p(y)$

高斯判别模型原理

对 $p (y)$ 进行研究， $y$ 的取值为1或0，是一个二分类问题，随机变量 $y$ 服从伯努利分布：

$y$	$1$	$0$
$p$	$\phi$	$1-\phi$

即有： $p(y=1)=\phi^{y}$ 和 $p(y=0)=(1-\phi)^{1-y}$ ；联立为一个式子：
$p(y)=\phi^{y}(1-\phi)^{1-y}$
再对 $p (x ∣ y)$ 进行研究，先做出一个强假设：当确定样本类别时，样本存在的概率服从高斯分布，这也是高斯判别模型中具有"高斯"二字的原因；即有：
$p(x|y=1)=N(\mu_{1},\Sigma),p(x|y=0)=N(\mu_{0},\Sigma)$
可以进一步描述模型的假设：基于不同分类的条件概率满足高斯分布，他们具有不同的均值（或者均值向量），但是其方差（或者协方差矩阵）是一致的。现在，将两个条件概率写成一个式子进行表达：
$p(x|y)=N(\mu_{1},\Sigma)^{y}N(\mu_{0},\Sigma)^{1-y}$

高斯判别模型的参数估计

根据 $p (y)$ 和 $p (x ∣ y)$ ，针对 $p (x ∣ y) p (y)$ 建立似然函数，利用极大似然估计方法估计高斯判别模型的参数；模型的对数似然函数为：
$L(\theta)=log\prod_{i=1}^{N}(p(x_{i}|y_{i})p(y_{i}))=\sum_{i=1}^{N}log(p(x_{i}|y_{i})p(y_{i}))=\sum_{i=1}^{N}(log[p(x_{i}|y_{i})]+log[p(y_{i})])$
代入假设的分布为：
$L(\theta)=\sum_{i=1}^{N}(log[N(\mu_{1},\Sigma)^{y_{i}}N(\mu_{0},\Sigma)^{1-y_{i}}]+log[\phi^{y_{i}}(1-\phi)^{1-y_{i}}])$
待估计参数为 $\theta=(\phi,\mu_{1},\mu_{0},\Sigma)$ ，假设 $y = 1$ 的样本数为 $N_{1}$ ， $y = 0$ 的样本数为 $N_{0}$ ，则 $N_{0}+N_{1}=N$ ；

先估计参数 $\phi$ ，其只与对数似然的第二项有关，因此有：
$\phi_{mle}=argmax_{\phi}\sum_{i=1}^{N}log[\phi^{y_{i}}(1-\phi)^{1-y_{i}}]=argmax_{\phi}\sum_{i=1}^{N}(y_{i}log(\phi)+(1-y_{i})log(1-\phi))$
计算偏导数，令偏导数为0，得到：
$\frac{\partial(\sum_{i=1}^{N}(y_{i}log(\phi)+(1-y_{i})log(1-\phi)))}{\partial\phi}=0\Rightarrow \phi_{mle}=\frac{N_{1}}{N}$
估计参数 $\mu_{1}$ ，它只与对数似然的第一项有关，第一项又可分解为：
$\sum_{i=1}^{N}(log[N(\mu_{1},\Sigma)^{y_{i}}N(\mu_{0},\Sigma)^{1-y_{i}}])=\sum_{i=1}^{N}(log[N(\mu_{1},\Sigma)^{y_{i}}]+log[N(\mu_{0},\Sigma)^{1-y_{i}}])$
因此，只需考虑上式第一项：
$\mu_{1}=argmax_{\mu_{1}}\sum_{i=1}^{N}log[N(\mu_{1},\Sigma)^{y_{i}}]=argmax_{\mu_{1}}\sum_{i=1}^{N}y_{i}log\frac{1}{(2\pi)^{D/2}|\Sigma|^{1/2}}exp(-\frac{1}{2}(x_{i}-\mu_{1})^{T}\Sigma^{-1}(x_{i}-\mu_{1}))$
其中， $N$ 是一个 $D$ 维高斯分布，去除无关项后，化简为：
$\mu_{1}=argmax_{\mu_{1}}\sum_{i=1}^{N}y_{i}(-\frac{1}{2}(x_{i}-\mu_{1})^{T}\Sigma^{-1}(x_{i}-\mu_{1}))$
同样，计算偏导数：
$\frac{\partial(\sum_{i=1}^{N}y_{i}(-\frac{1}{2}(x_{i}-\mu_{1})^{T}\Sigma^{-1}(x_{i}-\mu_{1})))}{\partial\mu_{1}}=\frac{\partial(-\frac{1}{2}\sum_{i=1}^{N}y_{i}(x_{i}^{T}\Sigma^{-1}x_{i}-x_{i}^{T}\Sigma^{-1}\mu_{1}-\mu_{1}^{T}\Sigma^{-1}x_{i}+\mu_{1}^{T}\Sigma^{-1}\mu_{1}))}{\partial\mu_{1}}$
其中， $x_{i}^{T}\Sigma^{-1}x_{i}$ 相对 $\mu_{1}$ 为常数，在计算偏导时为0，因此可以忽略； $x_{i}^{T}\Sigma^{-1}\mu_{1}$ 和 $\mu_{1}^{T}\Sigma^{-1}x_{i}$ 互为转置，而且两项都表示一个数，即二者相等；所以，上式等价于：
$\frac{\partial(-\frac{1}{2}\sum_{i=1}^{N}y_{i}(-2\mu_{1}^{T}\Sigma^{-1}x_{i}+\mu_{1}^{T}\Sigma^{-1}\mu_{1}))}{\partial\mu_{1}}=-\frac{1}{2}\sum_{i=1}^{N}y_{i}(-2\Sigma^{-1}x_{i}+2\Sigma^{-1}\mu_{1})=0$
即有：
$\sum_{i=1}^{N}y_{i}(\mu_{1}-x_{i})=0\Rightarrow\mu_{1}=\frac{\sum_{i=1}^{N}y_{i}x_{i}}{N_{1}}$
参数 $\mu_{0}$ 的估计推导过程与之类似，最后估计协方差矩阵 $\Sigma$ ，首先考虑各类别样本的集合：
$C_{1}=\left\{x_{i}|y_{i}=1,i=1,2,...,N_{1}\right\},|C_{1}|=N_{1}$
$C_{0}=\left\{x_{i}|y_{i}=0,i=1,2,...,N_{0}\right\},|C_{1}|=N_{0}$
因此可以化简对数似然的各项为：
$\sum_{i=1}^{N}log[N(\mu_{1},\Sigma)^{y_{i}}]=\sum_{i=1}^{N}y_{i}log[N(\mu_{1},\Sigma)]=\sum_{x_{i}\in C_{1}}log[N(\mu_{1},\Sigma)]$
同理有：
$\sum_{i=1}^{N}log[N(\mu_{0},\Sigma)^{1-y_{i}}]=\sum_{x_{i}\in C_{0}}log[N(\mu_{0},\Sigma)]$
计算关于协方差矩阵的偏导数（梯度）：
$\frac{\partial(\sum_{x_{i}\in C_{1}}log[N(\mu_{1},\Sigma)]+\sum_{x_{i}\in C_{0}}log[N(\mu_{0},\Sigma)])}{\partial\Sigma}$
下面对通用的形式进行化简：
$\sum_{i=1}^{N}logN(\mu,\Sigma)=\sum_{i=1}^{N}log\frac{1}{(2\pi)^{D/2}|\Sigma|^{1/2}}exp(-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu))$
$=-\sum_{i=1}^{N}\frac{D}{2}log(2\pi)-\sum_{i=1}^{N}\frac{1}{2}log|\Sigma|-\sum_{i=1}^{N}\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)$

此处引入线性代数中的概念：迹；对于一个 $n$ 阶方阵 $A$ ，方阵的迹为 $t r (A)$ ，为方阵对角线上所有元素之和，而 $(x-\mu)^{T}\Sigma^{-1}(x-\mu)$ 的结果为一个数值，数值可以看作是一个 $1\times 1$ 的方阵，因此有：
$(x-\mu)^{T}\Sigma^{-1}(x-\mu)=tr((x-\mu)^{T}\Sigma^{-1}(x-\mu))$
而关于方阵的迹存在特性： $t r (A B) = t r (B A)$ ；

利用方阵迹的性质，得到：
$\sum_{i=1}^{N}(x_{i}-\mu)^{T}\Sigma^{-1}(x_{i}-\mu)=tr[\Sigma^{-1}\sum_{i=1}^{N}(x_{i}-\mu)^{T}(x_{i}-\mu)]$
注意，结合方差的表达：
$S=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\mu)^{T}(x_{i}-\mu)$
因此：
$\sum_{i=1}^{N}(x_{i}-\mu)^{T}\Sigma^{-1}(x_{i}-\mu)=Ntr(S\Sigma^{-1})$
代入通式：
$\sum_{i=1}^{N}logN(\mu,\Sigma)=C-\frac{N}{2}log|\Sigma|-Ntr(S\Sigma^{-1})$
将通式代入协方差矩阵的似然项：
$\sum_{x_{i}\in C_{1}}log[N(\mu_{1},\Sigma)]+\sum_{x_{i}\in C_{0}}log[N(\mu_{0},\Sigma)]=-\frac{1}{2}Nlog|\Sigma|-\frac{1}{2}N_{1}tr(S_{1}\Sigma^{-1})-\frac{1}{2}N_{0}tr(S_{0}\Sigma^{-1})+C$

以下是关于矩阵求导的常用公式：
fig1

对协方差矩阵的似然项求导得到：
$\frac{\partial(Nlog|\Sigma|+N_{1}tr(S_{1}\Sigma^{-1})+N_{0}tr(S_{0}\Sigma^{-1}))}{\partial\Sigma}=N\Sigma-N_{1}S_{1}-N_{0}S_{0}=0$
即有：
$\Sigma=\frac{1}{N}(N_{1}S_{1}+N_{2}S_{2})$

tzc_fly

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
第五课.高斯判别分析

目录概率生成式模型高斯判别模型原理高斯判别模型的参数估计概率生成式模型概率判别式模型直接对条件概率p(Y∣X)p(Y|X)p(Y∣X)建模，比如逻辑回归，先计算p(y=1∣x)p(y=1|x)p(y=1∣x)和p(y=0∣x)p(y=0|x)p(y=0∣x)的概率值，再通过概率值判断分类结果取0还是1；概率生成式模型关心的是p(y=0∣x)p(y=0|x)p(y=0∣x)和p(y=1∣x)p(y=1|x)p(y=1∣x)两个概率哪个更大，只是比较二者的大小，不是一味地求p(y∣x)p(y|x)p(y∣
复制链接

扫一扫

专栏目录