8-线性分类-高斯判别分析

最新推荐文章于 2022-10-25 20:35:02 发布

取个名字真难呐

最新推荐文章于 2022-10-25 20:35:02 发布

阅读量314

点赞数 1

分类专栏： pytorch 文章标签：高斯判别分析伯努利分布高斯分布极大似然估计参数估计

本文链接：https://blog.csdn.net/scar2016/article/details/116416545

版权

pytorch 专栏收录该内容

148 篇文章 28 订阅

订阅专栏

文章目录

1.数据集定义
2.判别模型和生成模型的区别分析
3.高斯判别分析(Gaussian Discriminate Analysis)的模型搭建
4.极大似然估计法求相关参数值

1.数据集定义

定义数据样本 $D=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\},其中x_i\in \mathbb{R}^p,y_i\in \mathbb{R},其中x_i = 1,2,...,N$
$X=(x_1,x_2,...,x_N)^T= \begin{pmatrix} x_1^T\\x_2^T\\\vdots\\x_N^T \end{pmatrix}=\begin{pmatrix} x_{11}&x_{12}&...&x_{1p}\\x_{21}&x_{22}&...&x_{2p}\\\vdots&\vdots&\vdots&\vdots\\x_{N1}&x_{N2}&...&x_{Np}\end{pmatrix}_{N \times P} \tag 1$
$Y=\begin{pmatrix}y_1\\y_2\\\vdots\\y_N\end{pmatrix} \tag 2$
我们的数据集可以记为 $\{(x_i,y_i)\}_{i=1}^{N},其中，x_i \in \mathbb{R}^p,y_i \in \{+1,-1\},$ ,为了后续的方便，我们将样本分成两部分：
$C_1=\{x_i|y_i=1,i=1,2,\cdots,N_1\} \tag3$
$C_2=\{x_i|y_i=1,i=1,2,\cdots,N_2\} \tag4$
$C_1类的数据量为N_1,C_2类的数据量为N_2,且 N_1+N_2=N$

2.判别模型和生成模型的区别分析

概率判别模型的目标是直接求p(y|x)的值的多少。而概率生成模型不需要求出具体的概率值大小，只需要判断p(y=0|x)和p(y=1|x)到底谁更大即可。
$概率判别模型目标：\hat{y} = argmax\ p(y|x)\quad y \in \{0,1\} \tag 5$
对于概率生成模型来说，我们可以借助贝叶斯公式进行转换，将难求的p(x|y)转换到p(y|x)p(x)上：
$p(y|x)=\frac{p(x|y)p(y)}{p(x)} \propto p(x|y)p(y) \tag 6$
由于上述公式中的概率p(x)与y的取值无关，所以它是一个无相关值，可以在比较大小的过程中忽略，
我们定义如下：
$p(y|x)\rightarrow 后验估计(Posterior function) \tag 7$
$p(y)\rightarrow 先验估计(Prior function) \tag 8$
$p(x|y)\rightarrow 似然函数(Likelihood function) \tag 9$
如上所述，高斯生成模型的目标总结如下：
$\hat{y}=argmax_{y\in\{0,1\}}p(y|x)\propto argmax_{y\in\{0,1\}} p(x|y)p(y) \tag{10}$

3.高斯判别分析(Gaussian Discriminate Analysis)的模型搭建

高斯判别分析(Gaussian Discriminate Analysis)实际上是一个概率生成模型，这里很容易通过名字误导大家。
在这里插入图片描述

3.1 P(Y)先验概率-伯努利分布

在这里插入图片描述
$p(y=1)=\varphi^y; \qquad y=1\tag {11}$
$p(y=0)=(1-\varphi)^{1-y}; \qquad y=0\tag {11}$
合并上述两项：
$p(y)={\varphi}^y(1-\varphi)^{1-y} \tag {11}$

3.2 P(X|Y)似然函数-高斯分布

我们假设似然函数中的两个变量都服从高斯正太分布，满足期望不一样，方差一致。 $N_1(\mu_1,\Sigma),N_2(\mu_2,\Sigma)$
$p(x|y=0)\sim N_1(\mu_1,\Sigma) \tag{12}$
$p(x|y=1)\sim N_2(\mu_2,\Sigma) \tag{13}$
合并上述两项：
$p(x|y)={N_1(\mu_1,\Sigma)}^yN_2(\mu_2,\Sigma)^{1-y} \tag{14}$

3.3 极大似然法求p(x|y)p(y)值

$L(\theta)=\log{\prod_{i=1}^{N}p(x_i|y_i)p(y_i)}$

$\qquad=\sum_{i=1}^{N}\log p(x_i|y_i)p(y_i)$

$\qquad=\sum_{i=1}^{N}[\log p(x_i|y_i)+\log p(y_i)]$

$\qquad=\sum_{i=1}^{N}[\log {N_1(\mu_1,\Sigma)}^{y_i}N_2(\mu_2,\Sigma)^{1-y_i}+\log {\varphi}^{y_i}(1-\varphi)^{1-y_i}]$

$\qquad=\sum_{i=1}^{N}\log {N_1(\mu_1,\Sigma)}^{y_i}+\sum_{i=1}^{N}N_2(\mu_2,\Sigma)^{1-y_i}+\sum_{i=1}^{N}\log {\varphi}^{y_i}(1-\varphi)^{1-y_i}$
为方便计算，我们令：
$①=\sum_{i=1}^{N}\log {N_1(\mu_1,\Sigma)}^{y_i}$ ; $②=\sum_{i=1}^{N}N_2(\mu_2,\Sigma)^{1-y_i}$ ; $③=\sum_{i=1}^{N}\log {\varphi}^{y_i}(1-\varphi)^{1-y_i}$
$L(\theta)=①+②+③ \tag{15}$
$\theta=(\mu_1,\mu_2,\Sigma,\varphi);\quad \hat{\theta}=argmax_{\theta}L(\theta) \tag {16}$

4.极大似然估计法求相关参数值

4.1求偏导

由公式(15) , (16)可得，我们可用极大似然估计法求解相关参数，即L(θ)分别对各个参数求偏导后取零。
$\frac{\partial{L(\theta)}}{\partial \mu_1}=0\tag{17}$
$\frac{\partial{L(\theta)}}{\partial \mu_2}=0\tag{18}$
$\frac{\partial{L(\theta)}}{\partial \Sigma}=0\tag{19}$
$\frac{\partial{L(\theta)}}{\partial \varphi}=0\tag{20}$

4.2 矩阵公式

为方便计算，需要引入如下矩阵求导公式：
$tr(AB)=tr(BA)\tag{21}$
$\frac{\partial{tr(AB)}}{\partial A}=B^T\tag{22}$
$\frac{\partial |A|}{\partial A}=|A|A^{-1}\tag{23}$
$\frac{\partial \ln |A|}{\partial A}=A^{-1}\tag{24}$

4.3 详细推导

4.3.1求 $\varphi$

$\frac{\partial{L(\theta)}}{\partial \varphi}=\frac{\partial ③ }{\varphi} = 0$
$③=\sum_{i=1}^{N}\log {\varphi}^{y_i}(1-\varphi)^{1-y_i}=\sum_{i=1}^{N}[y_i \log \varphi+(1-y_i)\log{(1-\varphi)}] \tag{25}$
$\frac{\partial ③}{\partial \varphi}=\sum_{i=1}^{N}[\frac{y_i}{\varphi}+\frac{y_i-1}{1-\varphi}]=0 \tag{26}$
$\sum_{i=1}^{N}[y_i-\varphi y_i+\varphi y_i-\varphi]=0 \tag{27}$
$\sum_{i=1}^{N}y_i-\sum_{i=1}^{N}\varphi=0 \tag{28}$
$\hat{\varphi}=\frac{1}{N}\sum_{i=1}^{N}y_i \tag{29}$
由于我们定义y=0的数量为 $N_1$ 个，y=1的数量为 $N_2$ 个
$结论：\hat{\varphi}=\frac{N_1}{N} \tag{30}$

4.3.2 求 $\mu_1$

$\frac{\partial{L(\theta)}}{\partial \mu_1}= \frac{\partial ①}{\mu_1}=0 \tag{31}$
$①=\sum_{i=1}^{N}\log {N_1(\mu_1,\Sigma)}^{y_i}$
$①=\sum_{i=1}^{N}y_i \log{\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}exp^{(-\frac{1}{2}(x_i-\mu_1)^T{\Sigma}^{-1}(x_i-\mu_1))}} \tag{32}$
$①=\sum_{i=1}^{N}y_i[ \log{\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}{-\frac{1}{2}(x_i-\mu_1)^T{\Sigma}^{-1}(x_i-\mu_1)]}} \tag{33}$
由于上式我们只关注关于 $\mu_1的相关项，故可简化上式为：$
$①=\sum_{i=1}^{N}-\frac{1}{2}y_i(x_i-\mu_1)^T{\Sigma}^{-1}(x_i-\mu_1) \tag{34}$
$①=\sum_{i=1}^{N}-\frac{1}{2}y_i(x_i^T{\Sigma}^{-1}x_i-x_i^T{\Sigma}^{-1}\mu_1-\mu_1^T {\Sigma}^{-1}x_i+\mu_1^T{\Sigma}^{-1}\mu_1) \tag{35}$
$注：x_i^T维度：1\times p;\Sigma^{-1}维度：p \times p;\mu_1维度：p \times 1;$
$所以：x_i^T{\Sigma}^{-1}\mu_1=(1 \times p) \times (p \times p) \times(p \times 1)=1 ;实数 \tag{36}$
$①=\sum_{i=1}^{N}-\frac{1}{2}y_i(x_i^T{\Sigma}^{-1}x_i-2\mu_1^T {\Sigma}^{-1}x_i+\mu_1^T{\Sigma}^{-1}\mu_1) \tag{37}$
$\frac{\partial ①}{\partial \mu_1}=\sum_{i=1}^{N}-\frac{1}{2}y_i(0-2\Sigma^{-1}x_i+2\Sigma^{-1}\mu_1)=0\tag{38}$
$\sum_{i=1}^{N}-\frac{1}{2}y_i(x_i-\mu_1)=0 \tag{39}$
$\sum_{i=1}^{N}(y_ix_i-y_i\mu_1)=0 \tag{40}$
$\hat{\mu_1}=\frac{\sum_{i=1}^{N}y_ix_i}{\sum_{i=1}^{N}y_i}=\frac{\sum_{i=1}^{N}y_ix_i}{N_1}$

4.3.3 求 $\mu_2$

$\sum_{i=1}^{N}(1-y_i)(x_i-\mu_2)=0 \tag{41}$
$\sum_{i=1}^{N}(1-y_i)x_i-\sum_{i=1}^{N}(1-y_i)\mu_2=0 \tag{42}$

$同理：\hat{\mu_2}=\frac{\sum_{i=1}^{N}(1-y_i)x_i}{\sum_{i=1}^{N}(1-y_i)}=\frac{\sum_{i=1}^{N}(1-y_i)x_i}{N_2}\tag{43}$

4.3.4 求 $\Sigma$

极大似然估计法求解 $\Sigma,由L(\theta)可知，只有①=\sum_{i=1}^{N}\log {N_1(\mu_1,\Sigma)}^{y_i}$ ; $②=\sum_{i=1}^{N}N_2(\mu_2,\Sigma)^{1-y_i}含有相关变量，故可得如下：$
$\frac{\partial ①+②}{\partial \Sigma} = \frac{\partial \sum_{i=1}^{N}\log {N_1(\mu_1,\Sigma)}^{y_i}+ \sum_{i=1}^{N}N_2(\mu_2,\Sigma)^{1-y_i}}{\partial \Sigma}=0 \tag{44}$
为了简化计算，我们可化简如下：
$\hat{\Sigma}=argmax[\sum_{x \in C_1}\log N_I(\mu_1,\Sigma)+\sum_{x \in C_2}\log N_I(\mu_2,\Sigma)]\tag{45}$
我们可以用通用公式计算如下：
$\sum_{i=1}^{N}\log N(\mu,\Sigma)=\sum_{i=1}^{N}[ \log{\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}exp^{-\frac{1}{2}(x_i-\mu_1)^T{\Sigma}^{-1}(x_i-\mu_1)}]} \tag{46}$
$\sum_{i=1}^{N}\log N(\mu,\Sigma)=\sum_{i=1}^{N}(-\frac{p}{2}log{2\pi})-\sum_{i=1}^{N}\frac{1}{2}\log|\Sigma|-\sum_{i=1}^{N}\frac{1}{2}(x_i-\mu)^T{\Sigma}^{-1}(x_i-\mu) \tag{47}$
$\sum_{i=1}^{N}\log N(\mu,\Sigma)=C-\sum_{i=1}^{N}\frac{1}{2}\log |\Sigma|-\sum_{i=1}^{N}\frac{1}{2}(x_i-\mu)^T{\Sigma}^{-1}(x_i-\mu) \tag{48}$
通过维度判断， $(x_i-\mu)^T{\Sigma}^{-1}(x_i-\mu)是一维变量实数；故：$
$(x_i-\mu)^T{\Sigma}^{-1}(x_i-\mu)=tr((x_i-\mu)^T{\Sigma}^{-1}(x_i-\mu))=tr((x_i-\mu)^T(x_i-\mu){\Sigma}^{-1})$
转化(48)可得：
$\sum_{i=1}^{N}\log N(\mu,\Sigma)=C-\sum_{i=1}^{N}\frac{1}{2}\log |\Sigma|-\sum_{i=1}^{N}\frac{1}{2}tr[(x_i-\mu)^T(x_i-\mu){\Sigma}^{-1}] \tag{49}$
我们可以看出： $\sum_{i=1}^{N}(x_i-\mu)^T(x_i-\mu)=N_iS_i;其中S_i表示样本方差，N_i表示样本大小$
$\sum_{i=1}^{N}\log N(\mu,\Sigma)=C-\sum_{i=1}^{N}\frac{1}{2}\log |\Sigma|-\frac{N_i}{2}tr[S_i{\Sigma}^{-1}] \tag{50}$
$\frac{\partial \sum_{i=1}^{N}\log N(\mu,\Sigma)}{\partial \Sigma}=\sum_{i=1}^{N}(\frac{1}{2}{\Sigma}^{-1})-\frac{N_i}{2}(-S_i\Sigma^{-2})=0 \tag{51}$
$上式结论：\hat{\Sigma }=\frac{N_i}{N}S_i \tag{52}$
$故从(45)公式可得，分别代入样本S_1,S_2：最终结果：$
$\hat{\Sigma }=\frac{N_1}{N}S_1 +\frac{N_2}{N}S_2=\frac{N_1S_1+N_2S_2}{N} \tag{53}$

4.4 结果总结：

$\hat{\varphi}=\frac{N_1}{N} \tag{54}$
$\hat{\mu_1}=\frac{\sum_{i=1}^{N}y_ix_i}{N_1}\tag{55}$
$\hat{\mu_2}=\frac{\sum_{i=1}^{N}(1-y_i)x_i}{N_2}\tag{56}$
$\hat{\Sigma }=\frac{N_1S_1+N_2S_2}{N} \tag{57}$