机器学习——线性分类之高斯判别分析

最新推荐文章于 2024-04-26 15:23:04 发布

chendelun

最新推荐文章于 2024-04-26 15:23:04 发布

阅读量752

点赞数 1

文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_41048383/article/details/102530185

版权

文章目录

高斯判别分析模型定义
高斯判别分析模型求$\phi$
高斯判别分析模型求$\mu_1,\mu_2$
高斯判别分析模型求$\Sigma$
后记
参考资料

高斯判别分析模型定义

高斯判别分析：Gaussian discriminant analysis。

假设存在样本 $X_{N\times p}$ 满足如下形式:

$X=\left ( x_{1} \ x_{2} \ ...\ x_{N}\right )^{T} =\left( \begin{matrix} x^T_1 \\ x^T_2 \\ \vdots \\ x^T_N \\ \end{matrix} \right)_{N \times p} = \left( \begin{matrix} x_{11} & x_{12} & ... & x_{1p} \\ x_{21} & x_{22} & ... & x_{2p} \\ \vdots & \vdots & & \vdots \\ x_{N1} & x_{N2} & ... & x_{Np} \\ \end{matrix} \right )_{N\times p}$

存在样本 $Y_{N\times 1}$ 满足如下形式：

$=\left( \begin{matrix} y_{1} \\ y_{2} \\ \vdots \\ y_{N} \\ \end{matrix} \right )_{N \times 1}$
上述 $X$ 和 $Y$ 组成 $\left\{ \left( x_i,y_i\right) \right\}_{i=1}^{N}$ 样式样本点。
首先，高斯判别分析的作用也是用于分类。对于两类样本，其服从伯努利分布，假设 $Y$ 满足伯努利分布，则有：

$y_i$	1	0
$P$	$\phi$	$1-\phi$

$\Rightarrow\left\{\begin{matrix} \phi^y, &y_i=1 \\ (1-\phi)^{1-y_i},&y_i=0 & \end{matrix}\right. \Rightarrow \phi^y(1-\phi)^{1-y_i}$
对于每个类中的样本，假定都服从高斯分布，并有相同的协方差 $\Sigma$ ，则有：
$\left.\begin{matrix} x_i|y_i=1\sim N(\mu_1,\Sigma)\\ x_i|y_i=0 \sim N(\mu_2,\Sigma) \end{matrix}\right\} \Rightarrow N(\mu_1,\Sigma)^{y_i}\cdot N(\mu_2,\Sigma)^{1-y_i}$
并假设有 $N_1$ 个 $y_i=1$ ， $N_2$ 个 $y_i=0$ ，并且有 $N_1+N_2=N$ 。
这样，根据训练样本，估计出先验概率以及高斯分布的均值和协方差矩阵，即可通过如下贝叶斯公式求出一个新样本分别属于两类的概率，进而可实现对该样本的分类。
$P(y|x)=\frac{P(x|y)P(y)}{P(x)} \propto P(x|y)P(y)$
对于新来的样本 $y$ ,我们通过计算 $P (y = 1 ∣ x)$ 和 $P (y = 0 ∣ x)$ 并比较两者大小，将 $y$ 分类至求出概率大的一类，为此有：
$\hat{y} = \underset{y\in \left \{ 0,1\right\}}{\arg\max}P(y|x) = \underset{y\in \left \{ 0,1\right\}}{\arg\max} P(x|y)P(y)=\underset{y\in \left \{ 0,1\right\}}{\arg\max} P(x,y)$

高斯判别分析的核心工作就是估计上述未知量 $\mu_1,\mu_2,\Sigma,\phi$ 。现通过对数似然函数 $L(\theta)$ 估计上述未知量,其中 $\theta=(\mu_1,\mu_2,\Sigma,\phi)$ ：
$L(\theta) = \log \prod_{i=1}^NP(x,y) =\log \prod_{i=1}^N P(x|y)P(y) =\sum_{i=1}^N \log P(x|y)+\sum_{i=1}^N \log P(y)$
代入概率，得：
$L(\theta) = \sum_{i=1}^N \left [ \log N(\mu_1,\Sigma)^{y_i} +\log N(\mu_2,\Sigma)^{1-y_i} +\log \phi^y(1-\phi)^{1-y_i} \right ]$

高斯判别分析模型求 $\phi$

求 $\phi$ ，因为 $\phi$ 只与 $L(\theta)$ 第三项有关，我们令：
$\Delta =\sum_{i=1}^N \log \phi^y(1-\phi)^{1-y_i} =\sum_{i=1}^N y\log \phi+\sum_{i=1}^N (1-y_i)\log (1-\phi)$
对 $\Delta$ 求导有：
$\frac{\partial{\Delta}}{\partial{\phi}} =\sum_{i=1}^N \frac{y}{\phi}-\sum_{i=1}^N \frac{1-y}{1-\phi}\\ \sum_{i=1}^N \left [ y(1-\phi)-\phi(1-y) = 0 \right ] \\ \sum_{i=1}^N \left [y-\phi \right ] = 0\\ \sum_{i=1}^N y = N\phi$
所以有：
$\phi = \frac{\sum_{i=1}^N y}{N}=\frac{N_1}{N}$

高斯判别分析模型求 $\mu_1,\mu_2$

前面求出：
$L(\theta) = \sum_{i=1}^N \left [ \log N(\mu_1,\Sigma)^{y_i} +\log N(\mu_2,\Sigma)^{1-y_i} +\log \phi^y(1-\phi)^{1-y_i} \right ]$
观察 $\mu_1,\mu_2$ 只与第一项和第二项有关，并且 $\mu_1$ 只与第一项有关，我们令
$\Delta =\sum_{i=1}^N \log N(\mu_1,\Sigma)^{y_i}\\ =\sum_{i=1}^N y_i\log \left \{ \frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}} \exp\left [ -\frac{1}{2} (x_i-\mu_1)^T\Sigma^{-1} (x_i-\mu_1) \right ]\right\}\\ =\sum_{i=1}^N y_i\log \left \{ \frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}\right\} -\frac{1}{2} \sum_{i=1}^Ny_i (x_i-\mu_1)^T\Sigma^{-1} (x_i-\mu_1)$
$\Delta$ 对 $\mu_1$ 求导有：
$\frac{\partial{\Delta}}{\partial{\mu_1}}=\frac{\partial{[-\frac{1}{2} \sum_{i=1}^Ny_i (x_i-\mu_1)^T\Sigma^{-1} (x_i-\mu_1)]}}{\partial{\mu_1}}\\ =-\frac{1}{2} \sum_{i=1}^Ny_i (x_i-\mu_1) \Sigma^{-1}=0$
那么：
$\sum_{i=1}^Ny_i (x_i-\mu_1)=0\\ \sum_{i=1}^Ny_i x_i=\sum_{i=1}^Ny_i \mu_1=N_1\mu_1$
所以有：
$\hat{\mu_1}=\frac{1}{N_1}\sum_{i=1}^Ny_i x_i$
同理，对于 $\hat{\mu_2}$ ：
$\hat{\mu_2}=\frac{1}{N_2}\sum_{i=1}^N(1-y_i) x_i$

高斯判别分析模型求 $\Sigma$

前面求出：
$L(\theta) = \sum_{i=1}^N \left [ \log N(\mu_1,\Sigma)^{y_i} +\log N(\mu_2,\Sigma)^{1-y_i} +\log \phi^y(1-\phi)^{1-y_i} \right ]$
此时令：
$\Delta = \sum_{i=1}^N \left [ y_i\log N(\mu_1,\Sigma) +(1-y_i)\log N(\mu_2,\Sigma) \right]$
为方便求导计算，现对 $\Delta$ 做如下转换：
$\Delta = \Delta_1+\Delta_2= \sum_{x_i\in c_1}\log N(\mu_1,\Sigma)+ \sum_{x_i\in c_2}\log N(\mu_2,\Sigma)$
化简 $\Delta_1$ ：
$\Delta_1= \sum_{i=1}^{N_1} \log \left \{ \frac{1}{(2\pi)^{\frac{p}{2}}| \Sigma|^{\frac{1}{2}}} \exp\left [ -\frac{1}{2} (x_i-\mu_1)^T\Sigma^{-1} (x_i-\mu_1) \right ]\right\}\\ =\sum_{i=1}^{N_1} \log \frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}} -\frac{1}{2}\sum_{i=1}^{N_1} (x_i-\mu_1)^T\Sigma^{-1} (x_i-\mu_1)$
为方便计算，现引入如下定义：
$\frac{\partial{tr(AB)}}{\partial{A}} = B^T\\ \frac{\partial{|A|}}{\partial{A}} = |A|A^{-1}\\ tr(AB) = tr(BA)\\ tr(ABC) = tr(CAB)=tr(BCA)$
因为 $(x_i-\mu_1)^T\Sigma^{-1} (x_i-\mu_1)$ 为一维实数，将其转换为 $tr[(x_i-\mu_1)^T\Sigma^{-1} (x_i-\mu_1)]$ 对其值无任何影响，根据迹的性质，所以 $\Delta_1$ 有：
$\Delta_1=\sum_{i=1}^{N_1} \log \frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}} -\frac{1}{2}\sum_{i=1}^{N_1} tr[(x_i-\mu_1)^T\Sigma^{-1} (x_i-\mu_1)]\\ =\sum_{i=1}^{N_1} \log \frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}} -\frac{1}{2}\sum_{i=1}^{N_1} tr[(x_i-\mu_1)(x_i-\mu_1)^T\Sigma^{-1} ]$
因为样本方差 $S_1=\frac{1}{N_1}\sum_{i=1}^{N_1} (x_i-\mu_1)(x_i-\mu_1)^T$ ，所以上式有：
$\Delta_1=\sum_{i=1}^{N_1}\log (2\pi)^{-\frac{p}{2}}-\frac{1}{2}\sum_{i=1}^{N_1}\log|\Sigma|-\frac{1}{2}N_1tr\left [\frac{1}{N_1}\sum_{i=1}^{N_1} (x_i-\mu_1)(x_i-\mu_1)^T\Sigma^{-1}\right]\\ =C-\frac{1}{2}N_1\log|\Sigma|-\frac{1}{2}N_1tr(S_1\Sigma^{-1})$
所以：
$\Delta = \Delta_1+\Delta_2\\ =-\frac{1}{2}N_1\log|\Sigma|-\frac{1}{2}N_1tr(S_1\Sigma^{-1})-\frac{1}{2}N_2\log|\Sigma|-\frac{1}{2}N_2tr(S_2\Sigma^{-1})\\ =-\frac{1}{2} \left [ N\log|\Sigma|+ N_1tr(S_1\Sigma^{-1})+ N_2tr(S_2\Sigma^{-1}) \right ]$
现将 $\Delta$ 对 $\Sigma$ 求导，有(利用上文给出的行列式和迹求导的公式)：
$\frac{\partial{\Delta}}{\partial{\Sigma}} =-\frac{1}{2}\left ( N\frac{1}{|\Sigma|}|\Sigma|\Sigma^{-1}-N_1S_1\Sigma^{-2}-N_2S_2\Sigma^{-2}\right )\\ =-\frac{1}{2}\left [ N\Sigma -(N_1S_1+N_2S_2) \right]=0$
所以有:
$\hat{\Sigma}=\frac{1}{N}(N_1S_1+N_2S_2)$
求解完毕。

后记

至此， $\theta=(\mu_1,\mu_2,\Sigma,\phi)$ 均求解完毕！
日后补充

参考资料

1、机器学习白板推导
2、斯坦福机器学习实现与分析之五

chendelun

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
机器学习——线性分类之高斯判别分析

文章目录高斯判别分析模型定义高斯判别分析模型求$\phi$高斯判别分析模型求$\mu_1,\mu_2$高斯判别分析模型求$\Sigma$后记参考资料高斯判别分析模型定义高斯判别分析：Gaussian discriminant analysis。假设存在样本XN×pX_{N\times p}XN×p满足如下形式:X=(x1 x2 ... xN)T=(x1Tx2...
复制链接

扫一扫