机器学习-白板推导 P4_5 (高斯判别分析)_高斯判别分析推导-CSDN博客

本文链接：https://blog.csdn.net/qq_28404829/article/details/100618571

机器学习-白板推导 P4_5

高斯判别分析 Gaussian Discriminant Analysis

高斯判别分析 Gaussian Discriminant Analysis

定义

$\hat{y} = \arg \max_{y \in \lbrace 0,1 \rbrace} p(y|x)$

借助贝叶斯定理： $p(y|x)=\frac{p(x|y)p(y)}{p(x)}$

生成式模型并不是求两个值的大小，只要能够比较出两个值的大小就行

因为 $p (x)$ 是一个定值

所以 $\propto {p(x|y)p(y)}$

所以： $\hat{y} \propto \arg \max_{y \in \lbrace 0,1 \rbrace} p(x|y) p(y)$

假设 $y$ 服从伯努力分布

$\propto Bernoulli(\phi)$
在这里插入图片描述
高斯判别分析，假设条件概率服从高斯分布,均值不同,方差相同

$\propto N(\mu_1,\Sigma)$

$\propto N(\mu_2,\Sigma)$

公式

$l o g - l i k e l i h o o d$ :
$\begin{aligned} L(\theta) &= \sum_{i=1}^N \log(p(x_i|y_i)p(y_i)) \\ &=\sum_{i=1}^N(\log(p(x_i|y_i) + \log(p(y_i)) \\ &=\sum_{i=1}^N(\log N(\mu_1,\Sigma)^{y_i}N(\mu_2,\Sigma)^{1-y_i} + \log \phi^{y_i}(1-\phi)^{1-y_i}) \\ &=\sum_{i=1}^N (\log N(\mu_1,\Sigma)^{y_i}+\log N(\mu_2,\Sigma)^{1-y_i} + \log \phi^{y_i}(1-\phi)^{1-y_i}) \end{aligned}$

$\theta=(\mu_1,\mu_2,\Sigma,\phi)$

$\hat{w}=arg \max_{\theta}L(\theta)$

求值

把样本分为2类：
$y=1:N_1$
$y=0:N_2$
$N=N_1+N_2$

求 $\phi$ :

定义：

$L(\theta)_3= \log \phi^{y_i}(1-\phi)^{1-y_i}$

$\frac {\partial L(\theta)_3 }{\partial \phi}=\sum_{i=1}^N( y_i \frac{1}{\phi} +(1-y_i)\frac{1}{1- \phi}(-1))=0$

$\sum_{i=1}^N( y_i (1- \phi) - (1-y_i){\phi})=0$

$\sum_{i=1}^N( y_i -{\phi})=0$

$\sum_{i=1}^N y_i -N{\phi}=0$

所以：

$\hat{\phi}= \frac{1}{N} \sum_{i=1}^N y_i=\frac{N_1}{N}$

求 $\mu_1$ :
定义：

$L(\theta)_1= \sum_{i=1}^N (\log N(\mu_1,\Sigma)^{y_i})=\sum_{i=1}^Ny_i\log\frac{1}{(2 \pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}exp(-\frac{1}{2}(x_i-\mu_1)^T\Sigma^{-1}(x_i-\mu_1))$

$\mu_1=arg \max_{\mu_1}L(\theta)_1=arg \max_{\mu_1}\sum_{i=1}^Ny_i(-\frac{1}{2}(x_i-\mu_1)^T\Sigma^{-1}(x_i-\mu_1))$

$\begin{aligned} \Delta &= \sum_{i=1}^Ny_i(-\frac{1}{2}(x_i-\mu_1)^T\Sigma^{-1}(x_i-\mu_1)) \\ &=-\frac{1}{2} \sum_{i=1}^Ny_i((x_i^T \Sigma^{-1} -\mu_1^T \Sigma^{-1})(x_i-\mu_1)) \\ &=-\frac{1}{2} \sum_{i=1}^Ny_i(x_i^T \Sigma^{-1} x_i-\mu_1^T \Sigma^{-1}\mu_1-x_i^T \Sigma^{-1}x_i +\mu_1^T \Sigma^{-1}\mu_1 )\\ &=-\frac{1}{2} \sum_{i=1}^Ny_i(x_i^T \Sigma^{-1} x_i-2\mu_1^T \Sigma^{-1}x_1 +\mu_1^T \Sigma^{-1}\mu_1 )\\ \end{aligned}$

$\frac{\partial \Delta}{\partial \mu_1} = -\frac{1}{2} \sum_{i=1}^Ny_i(-2\Sigma^{-1}x_i+2\Sigma^{-1}\mu_1)=0$

$\sum_{i=1}^Ny_i(\Sigma^{-1}\mu_1-\Sigma^{-1}x_i)=0$

$\sum_{i=1}^Ny_i(\mu_1-x_i)=0$

$\sum_{i=1}^Ny_i\mu_1=\sum_{i=1}^Ny_i x_i$

$\hat{\mu_1}=\frac{\sum_{i=1}^Ny_ix_i}{\sum_{i=1}^N y_i}=\frac{\sum_{i=1}^Ny_ix_i}{N_1}$

求 $\Sigma$ :

补充公式：
$\frac{\partial tr(AB)}{\partial A}=B^T$
$\frac{\partial|A|}{\partial A}=|A|.A^{-1}$
$t r (A B) = t r (B A)$
$t r (A B C) = t r (C A B) = t r (B C A)$

$L(\theta)_2 = \sum_{i=1}^N (\log N(\mu_1,\Sigma)^{y_i}+\log N(\mu_2,\Sigma)^{1-y_i} )$

$\begin{aligned} \log N(\mu,\Sigma) &=\log \frac{1}{(2 \pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)) \\ &=\log\frac{1}{(2 \pi)^{\frac{p}{2}}}+\log |\Sigma|^{-\frac{1}{2}}-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)) \\ &=C- \frac{1}{2}\log|\Sigma|-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))\\ \end{aligned}$

$\begin{aligned} \sum_{i=1}^N \log N(\mu,\Sigma) &= \sum_{i=1}^N \left( C- \frac{1}{2}\log|\Sigma|-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)) \right) \\ &=C-\frac{1}{2}N\log|\Sigma|-\frac{1}{2}\sum_{i=1}^N \log N(x-\mu)^T\Sigma^{-1}(x-\mu)) \end{aligned}$
$(x-\mu)^T\Sigma^{-1}(x-\mu)$ 维度为1

$(x-\mu)^T\Sigma^{-1}(x-\mu)=tr((x-\mu)^T\Sigma^{-1}(x-\mu))$

样本方差 $S=\frac{1}{N}\sum_{i=1}^N(x-\mu)(x-\mu)^T$
$\begin{aligned} \sum_{i=1}^Ntr \left((x-\mu)^T\Sigma^{-1}(x-\mu) \right) &= \sum_{i=1}^Ntr \left((x-\mu)(x-\mu)^T\Sigma^{-1} \right) \\ &=tr\left( \sum_{i=1}^N(x-\mu)(x-\mu)^T\Sigma^{-1} \right) \\ &=Ntr(S\Sigma^{-1}) \end{aligned}$
所以：
$\begin{aligned} \sum_{i=1}^N \log N(\mu,\Sigma) &=C-\frac{1}{2}N\log|\Sigma|-\frac{1}{2}Ntr(S\Sigma^{-1}) \end{aligned}$

$\begin{aligned} L(\theta)_2 & = \sum_{i=1}^N (\log N(\mu_1,\Sigma)^{y_i}+\log N(\mu_2,\Sigma)^{1-y_i} ) \\ &=-\frac{1}{2}N_1\log|\Sigma|-\frac{1}{2}N_1tr(S_1\Sigma^{-1})-\frac{1}{2}N_2\log|\Sigma|-\frac{1}{2}N_2tr(S_2\Sigma^{-1})+C \\ &=-\frac{1}{2}N\log|\Sigma|-\frac{1}{2}N_1tr(S_1\Sigma^{-1})-\frac{1}{2}N_2tr(S_2\Sigma^{-1}) +C\\ &=-\frac{1}{2} \left( N\log|\Sigma|+N_1tr(S_1\Sigma^{-1})+N_2tr(S_2\Sigma^{-1}) \right) +C \\ \end{aligned}$

$\begin{aligned} \frac{\partial L(\theta)_2 }{\partial \Sigma} &= -\frac{1}{2} \left( N\frac{1}{|\Sigma|} |\Sigma| \Sigma^{-1} -N_1S_1\Sigma^{-2} -N_2S_2\Sigma^{-2} \right) \\ & = -\frac{1}{2} \left( N \Sigma^{-1} -N_1S_1\Sigma^{-2} -N_2S_2\Sigma^{-2} \right) \\ &=0 \end{aligned}$