（《机器学习》完整版系列）第13章半监督学习——13.1 生成式方法详解（样本数据都是由同一个潜在的模型“生成”的）-CSDN博客

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129640080

在前面章节中，我们学习了：（1）在样本集的样本标记的指导下进行分类；（2）在样本集样本的稠密分布约束下进行聚类。前者称为监督学习，后者称为无监督学习，无监督学习实际上还是找一个指导：以“稠密度”指导聚类（“稠密度”高的地方不应该分开）。在许多情况下，既有一些有标记的样本，又有大量的无标记样本，那么，充分利用这两点开发出的机器学习即为半监督学习。

设有标记的样本集： $D_l$ ，未标记的样本集： $D_u$
$\begin{align} \begin{cases} D_l=\{(\boldsymbol{x}_1,y_1),(\boldsymbol{x}_2,y_2),\cdots (\boldsymbol{x}_l,y_l)\} \\ D_u=\{\boldsymbol{x}_{l+1},\boldsymbol{x}_{l+2},\cdots \boldsymbol{x}_{l+u}\} \\ \end{cases} \tag{13.1} \end{align}$
用 $D_l\cup D_u$ 训练分类器，则是半监督学习。

生成式方法分为如下步骤来讨论：
（1）关于 ${\boldsymbol{\mu }_i }_i$
（2）关于 $\boldsymbol{\Sigma } _i$
（3）关于 $\alpha _i$
（4）模型参数及简化
（5）应用EM算法求参数：E步和M步不断循环迭代直至收敛，从而得到模型参数 $(\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } _i},\alpha _i)_{i=1}^N$ ，然后，就可以利用模型进行预测了。

在利用无标记样本集时，必须有一个先验假设，如：聚类时，假定“近墨者黑”。现在的先验假设是：所有样本数据（无论是否有标记）都是由同一个潜在的模型“生成”的，基于此理念的机器学习方法称为生成式方法。
设潜在的模型为高斯混合模型，对高斯混合模型参数进行估计可以采用EA算法，本篇进行了详细讨论和数学推导。

生成式方法

本节延续（9.3 高斯混合聚类算法（男生和女生依比例形成男女混合成绩模型）和
9.4 高斯混合模型EM算法详细推导）的高斯混合分布【西瓜书式(9.29)】相关内容：假设样本由高斯混合模型生成，则有【西瓜书式(13.1)】（由【西瓜书式(9.29)】改写），其中，高斯分布 $p(\boldsymbol{x }\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } }_i)$ 由【西瓜书式(9.28)】定义。后验概率 $p(\Theta =i\,|\,\boldsymbol{x })$ 由【西瓜书式(13.3)】或【西瓜书式(9.30)】给出，在此基础上，我们讨论其半监督学习。

（0）若干准备

设 $\boldsymbol{x}$ 所隶属的成分为 $\Theta$ ，将样本空间的参数及混合成分记为
$\boldsymbol{\theta } =(\boldsymbol{\mu },{\boldsymbol{\Sigma } },\boldsymbol{\alpha })=(\{\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } }_i,\boldsymbol{\alpha }_i\}_{i=1}^N)\Longrightarrow (\{\Theta =i\}_{i=1}^N)$

回到对数似然法【西瓜书式(7.10)】，则
$\begin{align} \mathrm{LL}(\boldsymbol{\theta } ) & =\ln P(D_l\cup D_u\,|\,\boldsymbol{\theta } )\notag \\ & =\ln (P(D_l\,|\,\boldsymbol{\theta } )P(D_u\,|\,\boldsymbol{\theta } ))\quad \text{（由i.i.d.假设）}\notag \\ & =\ln \left[\prod _{j=1}^lP(\boldsymbol{x}_j,y_j\,|\,\boldsymbol{\theta } )\times \prod _{j=l+1}^{l+u}P(\boldsymbol{x}_j\,|\,\boldsymbol{\theta } )\right]\notag \\ & =\sum _{j=1}^l\ln P(\boldsymbol{x}_j,y_j\,|\,\boldsymbol{\theta } )+ \sum _{j=l+1}^{l+u}\ln P(\boldsymbol{x}_j\,|\,\boldsymbol{\theta } ) \tag{13.2} \end{align}$
则
$\begin{align} P(\boldsymbol{x},y\,|\,\boldsymbol{\theta } ) & =P(\boldsymbol{x},y)\quad \text{（省略统一的条件$\boldsymbol{\theta }$，下同）}\notag \\ & =\sum_{i=1}^N P(\Theta =i,\boldsymbol{x},y)\notag \\ & =\sum_{i=1}^N P(\boldsymbol{x})P(\Theta =i\,|\,\boldsymbol{x})P(y\,|\,\Theta =i,\boldsymbol{x})\notag \\ & =\sum_{i=1}^N \text{【西瓜书式(13.1)与(13.3)相乘】}P(y\,|\,\Theta =i,\boldsymbol{x})\notag \\ & =\sum_{i=1}^N \alpha _iP(\boldsymbol{x}\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } _i})P(y\,|\,\Theta =i,\boldsymbol{x}) \tag{13.3} \end{align}$
将式(13.3)作用于 $(\boldsymbol{x}_j,y_j)$ ，得到 $P(\boldsymbol{x}_j,y_j\,|\,\boldsymbol{\theta } )$ ，同样，将【西瓜书式(13.1)】作用于 $\boldsymbol{x}_j$ ，得到 $P(\boldsymbol{x}_j\,|\,\boldsymbol{\theta } )$ ，记：
$\begin{align} \begin{cases} \ A_j\mathop{=} \limits^{\mathrm{def}} P(\boldsymbol{x}_j,y_j\,|\,\boldsymbol{\theta } )=\sum_{i=1}^N\alpha _iP(y_j\,|\,\Theta_j =i,\boldsymbol{x}_j)P(\boldsymbol{x}_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } _i}) \\ \ B_j\mathop{=} \limits^{\mathrm{def}} P(\boldsymbol{x}_j\,|\,\boldsymbol{\theta } )=\sum_{i=1}^N\alpha _iP(\boldsymbol{x}_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } _i}) \\ \end{cases} \tag{13.4} \end{align}$

再引入记号（样本所属成分的后验概率）
$\begin{align} {\gamma _{ji}} \mathop{=} \limits^{\mathrm{def}} P(\Theta_j =i\,|\,\boldsymbol{x}_j) \tag{13.5} \end{align}$
则由贝叶斯公式【西瓜书式(7.8)】有
$\begin{align} {\gamma _{ji}}=\frac{\alpha _iP(\boldsymbol{x}_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } _i})}{ B_j} \tag{13.6} \end{align}$
即【西瓜书式(13.5)】.

假设I：假设每个混合成分对应于一个类别

设“若 $\boldsymbol{x}_j$ 属于成分 $\Theta_j =i$ ，则 $\boldsymbol{x}_j$ 属于类别 $i$ ”，用概率式子表达即为
$\begin{align} P(y_j=i\,|\,\Theta_j =i)=1 \tag{13.7} \end{align}$
设 $D_i=D_l\bigcap \{(\boldsymbol{x}_j,y_j):y_j=i\}$ ，则
当 $(\boldsymbol{x}_j,y_j)\in D_i$ 时，有
$\begin{align} \begin{cases} \ P(y_j\,|\,\Theta_j =i,\boldsymbol{x}_j)=1 \\ \ A_j=B_j \\ \end{cases} \tag{13.8} \end{align}$
当 $(\boldsymbol{x}_j,y_j)\in D_l\setminus D_i$ 时，有
$\begin{align} P(y_j\,|\,\Theta_j =i,\boldsymbol{x}_j)=0 \tag{13.9} \end{align}$
引入记号 $C_j[f]$ ，由式(13.6)、式(13.8)、式(13.9)，有
$\begin{align} \quad C_j[f] & \mathop{=} \limits^{\mathrm{def}} \sum_{(\boldsymbol{x}_j,y_j)\in D_l}\frac{\alpha _iP(y_j\,|\,\Theta_j =i,\boldsymbol{x}_j)P(\boldsymbol{x}_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } _i})}{ A_j}f(\boldsymbol{x}_j)\notag\\ & \qquad +\sum_{\boldsymbol{x}_j\in D_u}\frac{\alpha _iP(\boldsymbol{x}_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } _i})}{ B_j}f(\boldsymbol{x}_j)\tag{13.10} \\ & =\sum_{(\boldsymbol{x}_j,y_j)\in D_l}{\gamma _{ji}}\frac{B_j}{ A_j}P(y_j\,|\,\Theta_j =i,\boldsymbol{x}_j)f(\boldsymbol{x}_j)+\sum_{\boldsymbol{x}_j\in D_u}{\gamma _{ji}}f(\boldsymbol{x}_j)\notag \\ & =\sum_{(\boldsymbol{x}_j,y_j)\in D_i}[{\gamma _{ji}}\frac{B_j}{ A_j}P(y_j\,|\,\Theta_j =i,\boldsymbol{x}_j)f(\boldsymbol{x}_j)]\notag \\ & \qquad +\sum_{(\boldsymbol{x}_j,y_j)\in D_l\setminus D_i}[{\gamma _{ji}}\frac{B_j}{ A_j}P(y_j\,|\,\Theta_j =i,\boldsymbol{x}_j)(\boldsymbol{x}_j-\boldsymbol{\mu }_i)]+\sum_{\boldsymbol{x}_j\in D_u}{\gamma _{ji}}f(\boldsymbol{x}_j)\notag \\ & =\sum_{(\boldsymbol{x}_j,y_j)\in D_i}[{\gamma _{ji}}f(\boldsymbol{x}_j)]+\sum_{(\boldsymbol{x}_j,y_j)\in D_l\setminus D_i}[0]+\sum_{\boldsymbol{x}_j\in D_u}{\gamma _{ji}}f(\boldsymbol{x}_j)\notag \\ & =\sum_{\boldsymbol{x}_j\in D_i\bigcup D_u}{\gamma _{ji}}f(\boldsymbol{x}_j) \tag{13.11} \end{align}$
式(13.4)代入式(13.2)，得到
$\begin{align} \mathrm{LL}(\boldsymbol{\theta } ) & =\text{【西瓜书式(13.4)】}\notag \\ & =\sum_{(\boldsymbol{x}_j,y_j)\in D_l}\ln A_j+\sum_{\boldsymbol{x}_j\in D_u}\ln B_j\quad \text{（简记）} \tag{13.12} \end{align}$
其中， $A_j,\ B_j$ 为式(13.4)。

再结合约束条件 $\alpha _i\geqslant 0,\sum_{i=1}^N\alpha _i=1$ ，作拉格朗日函数
$\begin{align} L=\mathrm{LL}(\boldsymbol{\theta } )+\lambda (\sum_{i=1}^N\alpha _i-1) \tag{13.13} \end{align}$

（1）关于 ${\boldsymbol{\mu }_i }_i$

$\begin{align} \frac{\partial A_j}{\partial \boldsymbol{\mu }_i} & =\frac{\partial }{\partial \boldsymbol{\mu }_i}\left[(\alpha _iP(\boldsymbol{x}_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } _i})P(y_j\,|\,\Theta_j =i,\boldsymbol{x}_j))+\sum_{k\neq i}\text{（与$\boldsymbol{\mu }_i$无关的项）}\right]\notag \\ & =\alpha _iP(y_j\,|\,\Theta_j =i,\boldsymbol{x}_j)\frac{\partial }{\partial \boldsymbol{\mu }_i}P(\boldsymbol{x}_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } _i})\notag \\ & =-\alpha _iP(y_j\,|\,\Theta_j =i,\boldsymbol{x}_j)P(\boldsymbol{x}_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } _i}){\boldsymbol{\Sigma } _i}^{-1}(\boldsymbol{x}_j-\boldsymbol{\mu }_i)\quad \text{（由9.4 高斯混合模型EM算法详细推导的式(9.4)）} \tag{13.14} \end{align}$

同样有
$\begin{align} \frac{\partial B_j}{\partial \boldsymbol{\mu }_i} & =-\alpha _iP(\boldsymbol{x}_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } _i}){\boldsymbol{\Sigma } _i}^{-1}(\boldsymbol{x}_j-\boldsymbol{\mu }_i) \tag{13.15} \end{align}$

由式(13.12)、式(13.13)、式(13.14)、式(13.15)，有
$\begin{align} \frac{\partial L}{\partial \boldsymbol{\mu }_i } & =\frac{\partial \mathrm{LL}(\boldsymbol{\theta } )}{\partial \boldsymbol{\mu }_i }\notag \\ & =\sum_{(\boldsymbol{x}_j,y_j)\in D_l}\frac{\partial }{\partial \boldsymbol{\mu }_i }\ln A_j+\sum_{\boldsymbol{x}_j\in D_u}\frac{\partial }{\partial \boldsymbol{\mu }_i }\ln B_j\quad \text{（由式(13.12)）}\notag \\ & =\sum_{(\boldsymbol{x}_j,y_j)\in D_l}\frac{1}{ A_j}\frac{\partial A_j}{\partial \boldsymbol{\mu }_i}+\sum_{\boldsymbol{x}_j\in D_u}\frac{1}{ B_j}\frac{\partial B_j}{\partial \boldsymbol{\mu }_i}\notag \\ & =-\sum_{(\boldsymbol{x}_j,y_j)\in D_l}\frac{\alpha _iP(y_j\,|\,\Theta_j =i,\boldsymbol{x}_j)P(\boldsymbol{x}_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } _i})}{ A_j}{\boldsymbol{\Sigma } _i}^{-1}(\boldsymbol{x}_j-\boldsymbol{\mu }_i)\notag \\ & \quad\quad -\sum_{\boldsymbol{x}_j\in D_u}\frac{\alpha _iP(\boldsymbol{x}_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } _i})}{ B_j}{\boldsymbol{\Sigma } _i}^{-1}(\boldsymbol{x}_j-\boldsymbol{\mu }_i) \tag{13.16} \end{align}$

令 $f(\boldsymbol{x}_j)=-{\boldsymbol{\Sigma } _i}^{-1}(\boldsymbol{x}_j-\boldsymbol{\mu }_i)$ ，式(13.16)变为
$\begin{align} \frac{\partial L}{\partial \boldsymbol{\mu }_i } & =C_j[f]|_{f(\boldsymbol{x}_j)=-{\boldsymbol{\Sigma } _i}^{-1}(\boldsymbol{x}_j-\boldsymbol{\mu }_i)}\quad \text{（由式(13.10)）}\notag \\ & =\sum_{\boldsymbol{x}_j\in D_i\bigcup D_u}{\gamma _{ji}}f(\boldsymbol{x}_j)|_{f(\boldsymbol{x}_j)=-{\boldsymbol{\Sigma } _i}^{-1}(\boldsymbol{x}_j-\boldsymbol{\mu }_i)}\quad \text{（由式(13.11)）}\notag \\ & =-{\boldsymbol{\Sigma } _i}^{-1}\left(\sum_{\boldsymbol{x}_j\in D_i\bigcup D_u}{\gamma _{ji}}(\boldsymbol{x}_j-\boldsymbol{\mu }_i)\right) \tag{13.17} \end{align}$
令 $\frac{\partial L}{\partial \boldsymbol{\mu }_i }=\mathbf{0}$ ，则
$\begin{align} \boldsymbol{\mu }_i=\frac{\sum_{\boldsymbol{x}_j\in D_i\bigcup D_u}{\gamma _{ji}}\boldsymbol{x}_j}{\sum_{\boldsymbol{x}_j\in D_i\bigcup D_u}{\gamma _{ji}}} \tag{13.18} \end{align}$

（2）关于 $\boldsymbol{\Sigma } _i$

$\begin{align} \frac{\partial A_j}{\partial {\boldsymbol{\Sigma } _i}} & =\frac{\partial }{\partial {\boldsymbol{\Sigma } _i}}\left[(\alpha _iP(\boldsymbol{x}_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } _i})P(y_j\,|\,\Theta_j =i,\boldsymbol{x}_j))+\sum_{k\neq i}\text{（与${\boldsymbol{\Sigma } _i}$无关的项）}\right]\notag \\ & =\alpha _iP(y_j\,|\,\Theta_j =i,\boldsymbol{x}_j)\frac{\partial }{\partial {\boldsymbol{\Sigma } _i}}P(\boldsymbol{x}_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } _i})\quad \text{（下式由9.4 高斯混合模型EM算法详细推导的式(9.14)）}\notag \\ & =\frac{1}{2}\alpha _iP(y_j\,|\,\Theta_j =i,\boldsymbol{x}_j)P(\boldsymbol{x }_j\,|\,\boldsymbol{\mu}_i, {\boldsymbol{\Sigma } }_i){\boldsymbol{\Sigma } }_i^{-1}[(\boldsymbol{x }_j-\boldsymbol{\mu}_i)(\boldsymbol{x }_j-\boldsymbol{\mu}_i)^{\mathrm{T}}-{\boldsymbol{\Sigma } }_i] {\boldsymbol{\Sigma } }_i^{-1}\notag \\ & =\frac{1}{2}\alpha _iP(y_j\,|\,\Theta_j =i,\boldsymbol{x}_j)P(\boldsymbol{x }_j\,|\,\boldsymbol{\mu}_i, {\boldsymbol{\Sigma } }_i)f(\boldsymbol{x}_j)\tag{13.19} \end{align}$
其中， $f(\boldsymbol{x}_j)={\boldsymbol{\Sigma } }_i^{-1}[(\boldsymbol{x }_j-\boldsymbol{\mu}_i)(\boldsymbol{x }_j-\boldsymbol{\mu}_i)^{\mathrm{T}}-{\boldsymbol{\Sigma } }_i]{\boldsymbol{\Sigma } }_i^{-1}$ 。

同样有
$\begin{align} \frac{\partial B_j}{\partial {\boldsymbol{\Sigma } _i}} & =\frac{1}{2}\alpha _iP(\boldsymbol{x }_j\,|\,\boldsymbol{\mu}_i, {\boldsymbol{\Sigma } }_i)f(\boldsymbol{x}_j) \tag{13.20} \end{align}$
其中， $f(\boldsymbol{x}_j)={\boldsymbol{\Sigma } }_i^{-1}[(\boldsymbol{x }_j-\boldsymbol{\mu}_i)(\boldsymbol{x }_j-\boldsymbol{\mu}_i)^{\mathrm{T}}-{\boldsymbol{\Sigma } }_i]{\boldsymbol{\Sigma } }_i^{-1}$ 。

由式(13.13)、式(13.19)、式(13.20)，有
$\begin{align} \frac{\partial L}{\partial {\boldsymbol{\Sigma } _i} } & =\frac{\partial \mathrm{LL}(\boldsymbol{\theta } )}{\partial {\boldsymbol{\Sigma } _i} }\notag \\ & =\sum_{(\boldsymbol{x}_j,y_j)\in D_l}\frac{\partial }{\partial {\boldsymbol{\Sigma } _i} }\ln A_j+\sum_{\boldsymbol{x}_j\in D_u}\frac{\partial }{\partial {\boldsymbol{\Sigma } _i} }\ln B_j\quad \text{（由式(13.12)）}\notag \\ & =\sum_{(\boldsymbol{x}_j,y_j)\in D_l}\frac{1}{ A_j}\frac{\partial A_j}{\partial {\boldsymbol{\Sigma } _i}}+\sum_{\boldsymbol{x}_j\in D_u}\frac{1}{ B_j}\frac{\partial B_j}{\partial {\boldsymbol{\Sigma } _i}}\notag \\ & =\frac{1}{2}\sum_{(\boldsymbol{x}_j,y_j)\in D_l}\frac{1}{ A_j}\alpha _iP(y_j\,|\,\Theta_j =i,\boldsymbol{x}_j)P(\boldsymbol{x }_j\,|\,\boldsymbol{\mu}_i, {\boldsymbol{\Sigma } }_i)f(\boldsymbol{x}_j)\notag \\ &\qquad \frac{1}{2}+\sum_{\boldsymbol{x}_j\in D_u}\frac{1}{ B_j}\alpha _iP(\boldsymbol{x }_j\,|\,\boldsymbol{\mu}_i, {\boldsymbol{\Sigma } }_i)f(\boldsymbol{x}_j)\notag \\ & =\frac{1}{2}C_j[f]|_{f(\boldsymbol{x}_j)={\boldsymbol{\Sigma } }_i^{-1}[(\boldsymbol{x }_j-\boldsymbol{\mu}_i)(\boldsymbol{x }_j-\boldsymbol{\mu}_i)^{\mathrm{T}}-{\boldsymbol{\Sigma } }_i]{\boldsymbol{\Sigma } }_i^{-1}}\quad \text{（由式(13.10)）}\notag \\ & =\frac{1}{2}\sum_{\boldsymbol{x}_j\in D_i\bigcup D_u}{\gamma _{ji}}f(\boldsymbol{x}_j)|_{f(\boldsymbol{x}_j)={\boldsymbol{\Sigma } }_i^{-1}[(\boldsymbol{x }_j-\boldsymbol{\mu}_i)(\boldsymbol{x }_j-\boldsymbol{\mu}_i)^{\mathrm{T}}-{\boldsymbol{\Sigma } }_i]{\boldsymbol{\Sigma } }_i^{-1}}\quad \text{（由式(13.11)）}\notag \\ & =\frac{1}{2}\sum_{\boldsymbol{x}_j\in D_i\bigcup D_u}{\gamma _{ji}}{\boldsymbol{\Sigma } }_i^{-1}[(\boldsymbol{x }_j-\boldsymbol{\mu}_i)(\boldsymbol{x }_j-\boldsymbol{\mu}_i)^{\mathrm{T}}-{\boldsymbol{\Sigma } }_i]{\boldsymbol{\Sigma } }_i^{-1}\notag \\ & =\frac{1}{2}{\boldsymbol{\Sigma } }_i^{-1}\left(\sum_{\boldsymbol{x}_j\in D_i\bigcup D_u}{\gamma _{ji}}[(\boldsymbol{x }_j-\boldsymbol{\mu}_i)(\boldsymbol{x }_j-\boldsymbol{\mu}_i)^{\mathrm{T}}-{\boldsymbol{\Sigma } }_i]\right){\boldsymbol{\Sigma } }_i^{-1} \tag{13.21} \end{align}$
令 $\frac{\partial L}{\partial {\boldsymbol{\Sigma } _i} }=\mathbf{0}$ ，则
$\begin{align} & \sum_{\boldsymbol{x}_j\in D_i\bigcup D_u}{\gamma _{ji}}[(\boldsymbol{x }_j-\boldsymbol{\mu}_i)(\boldsymbol{x }_j-\boldsymbol{\mu}_i)^{\mathrm{T}}-{\boldsymbol{\Sigma } }_i]=\mathbf{0}\notag \\ & \sum_{\boldsymbol{x}_j\in D_i\bigcup D_u}{\gamma _{ji}}(\boldsymbol{x }_j-\boldsymbol{\mu}_i)(\boldsymbol{x }_j-\boldsymbol{\mu}_i)^{\mathrm{T}}-\sum_{\boldsymbol{x}_j\in D_i\bigcup D_u}{\gamma _{ji}}{\boldsymbol{\Sigma } }_i=\mathbf{0}\notag \\ & {\boldsymbol{\Sigma } _i}=\frac{\sum_{\boldsymbol{x}_j\in D_i\bigcup D_u}{\gamma _{ji}}(\boldsymbol{x }_j-\boldsymbol{\mu}_i)(\boldsymbol{x }_j-\boldsymbol{\mu}_i)^{\mathrm{T}}}{\sum_{\boldsymbol{x}_j\in D_i\bigcup D_u}{\gamma _{ji}}} \tag{13.22} \end{align}$

（3）关于 $\alpha _i$

$\begin{align} \frac{\partial A_j}{\partial \alpha _i} & =P(y_j\,|\,\Theta_j =i,\boldsymbol{x}_j)P(\boldsymbol{x}_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } _i}) \tag{13.23} \end{align}$

同样有
$\begin{align} \frac{\partial B_j}{\partial \alpha _i} & =P(\boldsymbol{x}_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } _i}) \tag{13.24} \end{align}$

由式(13.23)、式(13.24)，有
$\begin{align} \frac{\partial \mathrm{LL}(\boldsymbol{\theta } )}{\partial \alpha _i } & =\sum_{(\boldsymbol{x}_j,y_j)\in D_l}\frac{1}{ A_j}\frac{\partial A_j}{\partial \alpha _i}+\sum_{\boldsymbol{x}_j\in D_u}\frac{1}{ B_j}\frac{\partial B_j}{\partial \alpha _i}\notag \\ & =\sum_{(\boldsymbol{x}_j,y_j)\in D_l}\frac{1}{ A_j}P(y_j\,|\,\Theta_j =i,\boldsymbol{x}_j)P(\boldsymbol{x}_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } _i})+\sum_{\boldsymbol{x}_j\in D_u}\frac{1}{ B_j}P(\boldsymbol{x}_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } _i})\notag \\ & =\alpha _i^{-1}\sum_{(\boldsymbol{x}_j,y_j)\in D_l}\frac{1}{ A_j}{\alpha _i}P(y_j\,|\,\Theta_j =i,\boldsymbol{x}_j)P(\boldsymbol{x}_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } _i})\notag\\ &\qquad +\alpha _i^{-1}\sum_{\boldsymbol{x}_j\in D_u}\frac{1}{ B_j}{\alpha _i}P(\boldsymbol{x}_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } _i})\notag \\ & =\alpha _i^{-1}C_j[f]|_{f(\boldsymbol{x}_j)=1}\quad \text{（由式(13.10)）}\notag \\ & =\alpha _i^{-1}\sum_{\boldsymbol{x}_j\in D_i\bigcup D_u}{\gamma _{ji}}f(\boldsymbol{x}_j)|_{f(\boldsymbol{x}_j)=1}\quad \text{（由式(13.11)）}\notag \\ & =\alpha _i^{-1}\sum_{\boldsymbol{x}_j\in D_i\bigcup D_u}{\gamma _{ji}} \tag{13.25} \end{align}$
由式(13.13)
$\begin{align} \frac{\partial L}{\partial \alpha _i } & =\frac{\partial \mathrm{LL}(\boldsymbol{\theta } )}{\partial \alpha _i }+\lambda \frac{\partial }{\partial \alpha _i }(\sum_{j=1}^N\alpha _j-1)\notag \\ & =\alpha _i^{-1}\sum_{\boldsymbol{x}_j\in D_i\bigcup D_u}{\gamma _{ji}}+\lambda \tag{13.26} \end{align}$
令其为 $0$ ，则
$\begin{align} \alpha _i & =-\lambda ^{-1}\sum_{\boldsymbol{x}_j\in D_i\bigcup D_u}{\gamma _{ji}} \tag{13.27} \\ \lambda\alpha _i & =-\sum_{\boldsymbol{x}_j\in D_i\bigcup D_u}{\gamma _{ji}}\notag \\ \sum _{i=1}^N\lambda\alpha _i & =-\sum _{i=1}^N\sum_{\boldsymbol{x}_j\in D_i\bigcup D_u}{\gamma _{ji}}\notag \\ \lambda\sum _{i=1}^N\alpha _i & =-\sum _{i=1}^N\sum_{\boldsymbol{x}_j\in D_i\bigcup D_u}{\gamma _{ji}}\notag \\ \lambda & =-\sum _{i=1}^N\sum_{\boldsymbol{x}_j\in D_i\bigcup D_u}{\gamma _{ji}} \tag{13.28} \end{align}$

由式(13.27)、式(13.28)，有
$\begin{align} \alpha _i=\frac{\sum_{\boldsymbol{x}_j\in D_i\bigcup D_u}{\gamma _{ji}}}{\sum _{i=1}^N\sum_{\boldsymbol{x}_j\in D_i\bigcup D_u}{\gamma _{ji}}} \tag{13.29} \end{align}$

（4）模型参数及简化

汇总式(13.18)、式(13.22)、式(13.29)，得模型参数
$\begin{align} \begin{cases} \boldsymbol{\mu }_i=\frac{\sum_{\boldsymbol{x}_j\in D_i\bigcup D_u}{\gamma _{ji}}\boldsymbol{x}_j}{\sum_{\boldsymbol{x}_j\in D_i\bigcup D_u}{\gamma _{ji}}} \\ {\boldsymbol{\Sigma } _i}=\frac{\sum_{\boldsymbol{x}_j\in D_i\bigcup D_u}{\gamma _{ji}}(\boldsymbol{x }_j-\boldsymbol{\mu}_i)(\boldsymbol{x }_j-\boldsymbol{\mu}_i)^{\mathrm{T}}}{\sum_{\boldsymbol{x}_j\in D_i\bigcup D_u}{\gamma _{ji}}} \\ \alpha _i=\frac{\sum_{\boldsymbol{x}_j\in D_i\bigcup D_u}{\gamma _{ji}}}{\sum _{i=1}^N\sum_{\boldsymbol{x}_j\in D_i\bigcup D_u}{\gamma _{ji}}} \\ \end{cases} \tag{13.30} \end{align}$
其中，成分 $i$ 的参数： $\boldsymbol{\mu }_i$ 为向量（中心点）， $\boldsymbol{\Sigma } _i$ 为矩阵（样本集的协方差矩阵）， $\alpha _i$ 为标量（成分占比）。
另外，公式(13.30)中并没有见到监督的 $y_i$ ，那它的作用在哪里呢？它的作用在于分出 $D_i$ 。

在假设I下，模型参数为式(13.30)。
为简化计算，我们在假设I的基础上再增加一个假设 II，则导出模型参数为【西瓜书式 (13.6)(13.7)(13.8)】。

假设 II：假设每个类别对应于一个混合成分
设“若 $\boldsymbol{x}_j$ 属于类别 $i$ ，则 $\boldsymbol{x}_j$ 属于成分 $\Theta_j =i$ ”，用概率式子表达即为
$\begin{align} P(\Theta_j =i\,|\,y_j=i)=1 \tag{13.31} \end{align}$
即有
$\begin{align} P(\Theta_j =i\,|\,\boldsymbol{x}_j\in D_i)=1 \tag{13.32} \end{align}$
代入式(13.5)得
$\begin{align} {\gamma _{ji}}=1,\quad (\text{\text{若}} \ \boldsymbol{x}_j\in D_i) \tag{13.33} \end{align}$
由式 (13.33)有 $\sum_{\boldsymbol{x}_j\in D_i}{\gamma _{ji}}=|D_i|$ ，记为 $l_i$ ，即为 $D_l$ 中标记为第 $i$ 类的样例的数目。

由此，可简化上述模型参数式(13.30)
$\begin{align} \boldsymbol{\mu }_i & =\frac{\sum_{\boldsymbol{x}_j\in D_i\bigcup D_u}{\gamma _{ji}}\boldsymbol{x}_j}{\sum_{\boldsymbol{x}_j\in D_i\bigcup D_u}{\gamma _{ji}}}\notag \\ & =\frac{\sum_{\boldsymbol{x}_j\in D_i}{\gamma _{ji}}\boldsymbol{x}_j+\sum_{\boldsymbol{x}_j\in D_u}{\gamma _{ji}}\boldsymbol{x}_j}{\sum_{\boldsymbol{x}_j\in D_i}{\gamma _{ji}}+\sum_{\boldsymbol{x}_j\in D_u}{\gamma _{ji}}}\notag \\ & =\frac{\sum_{\boldsymbol{x}_j\in D_i}\boldsymbol{x}_j+\sum_{\boldsymbol{x}_j\in D_u}{\gamma _{ji}}\boldsymbol{x}_j}{l_i+\sum_{\boldsymbol{x}_j\in D_u}{\gamma _{ji}}} \tag{13.34} \end{align}$

其中， $l_i=|D_i|$

$\begin{align} {\boldsymbol{\Sigma } _i} & =\frac{\sum_{\boldsymbol{x}_j\in D_i}(\boldsymbol{x }_j-\boldsymbol{\mu}_i)(\boldsymbol{x }_j-\boldsymbol{\mu}_i)^{\mathrm{T}}+\sum_{\boldsymbol{x}_j\in D_u}{\gamma _{ji}}(\boldsymbol{x }_j-\boldsymbol{\mu}_i)(\boldsymbol{x }_j-\boldsymbol{\mu}_i)^{\mathrm{T}}}{l_i+\sum_{\boldsymbol{x}_j\in D_u}{\gamma _{ji}}} \tag{13.35} \\ \alpha _i & =\frac{l_i+\sum_{\boldsymbol{x}_j\in D_u}{\gamma _{ji}}}{\sum _{i=1}^N(l_i+\sum_{\boldsymbol{x}_j\in D_u}{\gamma _{ji}})}\notag \\ & =\frac{l_i+\sum_{\boldsymbol{x}_j\in D_u}{\gamma _{ji}}}{l+\sum_{\boldsymbol{x}_j\in D_u}\sum _{i=1}^N{\gamma _{ji}}}\notag \\ & =\frac{l_i+\sum_{\boldsymbol{x}_j\in D_u}{\gamma _{ji}}}{l+\sum_{\boldsymbol{x}_j\in D_u}}\notag \\ & =\frac{l_i+\sum_{\boldsymbol{x}_j\in D_u}{\gamma _{ji}}}{l+u} \tag{13.36} \end{align}$
式 (13.34)、式 (13.35)、式(13.36)即【西瓜书式(13.6)(13.7)(13.8)】，当 $D_l=\varnothing$ 时，即为【西瓜书式(9.34)、式(9.35)、式(9.38)】，当 $D_u=\varnothing$ 时，即为有监督学习。