（《机器学习》完整版系列）第9章聚类——9.4 高斯混合模型EM算法详细推导

人工干智能

已于 2023-04-25 08:45:53 修改

阅读量619

点赞数 1

分类专栏：周志华【西瓜书】辅导《机器学习》文章标签：算法聚类机器学习

于 2023-03-02 10:58:20 首次发布

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129295011

版权

周志华【西瓜书】辅导同时被 2 个专栏收录

143 篇文章 25 订阅

订阅专栏

《机器学习》

143 篇文章 5 订阅

订阅专栏

上篇博我们给出了高斯混合模型EM算法，这里我们对它的公式进行详细推导.

高斯混合模型EM算法推导

在7.10 EM算法的使用场景及步骤中，我们给出了一般的EM算法步聚，在具体应用时，关键是要构造出该方法所需的要素，然后直接套用它即可。这里符合指出的没有缺失属性（隐变量）的情况，有有（I）和（II）两种办法处理。

【西瓜书】就是按（I）处理：即在极大（对数）似然过程中“凑出”递推式，转化为EM算法。

（1）参数 $\boldsymbol{\mu }$

由【西瓜书式(9.28)】有
$\begin{align} \frac{\partial p(\boldsymbol{x })}{\partial \boldsymbol{\mu }} & =p(\boldsymbol{x }) \frac{-\frac{1}{2}\partial (\boldsymbol{x }-\boldsymbol{\mu })^\mathrm{T}{\boldsymbol{\Sigma } }^{-1}(\boldsymbol{x }-\boldsymbol{\mu })}{\partial \boldsymbol{\mu }}\notag \\ & =-p(\boldsymbol{x }){\boldsymbol{\Sigma } }^{-1}(\boldsymbol{x }-\boldsymbol{\mu })\qquad \text{（由【西瓜书式(A.32】）)} \tag{9.3} \end{align}$

将式(9.3)用于 $p(\boldsymbol{x }_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } }_i)$

，即
$\begin{align} \frac{\partial p(\boldsymbol{x }_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } }_i)}{\partial \boldsymbol{\mu }_i}=-p(\boldsymbol{x }_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } }_i){\boldsymbol{\Sigma } }_i^{-1}(\boldsymbol{x }_j-\boldsymbol{\mu }_i) \tag{9.4} \end{align}$

由【西瓜书式(9.32)】有
$\begin{align} \frac{\partial \mathrm{LL}(D)}{\partial \boldsymbol{\mu }_i} & =\sum_{j=1}^m\frac{\partial\ln\, (\sum_{i=1}^k{\alpha}_ip(\boldsymbol{x }_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } }_i))}{\partial \boldsymbol{\mu }_i}\notag \\ & =\sum_{j=1}^m\frac{{\alpha}_i }{\sum_{i=1}^k{\alpha}_ip(\boldsymbol{x }_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } }_i)}\frac{\partial p(\boldsymbol{x }_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } }_i)}{\partial \boldsymbol{\mu }_i}\notag \\ & =-\sum_{j=1}^m\frac{{\alpha}_i p(\boldsymbol{x }_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } }_i)}{\sum_{i=1}^k{\alpha}_ip(\boldsymbol{x }_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } }_i)}{\boldsymbol{\Sigma } }_i^{-1}(\boldsymbol{x }_j-\boldsymbol{\mu }_i)\quad \text{（由式(9.4)）}\notag \\ & =-{\boldsymbol{\Sigma } }_i^{-1}\sum_{j=1}^m{\gamma}_{ji}(\boldsymbol{x }_j-\boldsymbol{\mu }_i) \tag{9.5} \end{align}$
其中
$\begin{align} {\gamma}_{ji}=\frac{{\alpha}_i p(\boldsymbol{x }_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } }_i)}{\sum_{i=1}^k{\alpha}_ip(\boldsymbol{x }_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } }_i)} \tag{9.6} \end{align}$
式中 ${\boldsymbol{\Sigma } }_i$ 不是求和符号，而是协方差（矩阵）。

注：这里既有 ${\boldsymbol{\Sigma } }$ 又有 ${\sum }$ ，请注意区别： ${\boldsymbol{\Sigma } }$ 不是求和符号，而是协方差矩阵。

令 $\frac{\partial \mathrm{LL}(D)}{\partial \boldsymbol{\mu }_i}=\boldsymbol{0}$ ，两边乘以 ${\boldsymbol{\Sigma } }$ ，则由式(9.5)得
$\begin{align} \sum_{j=1}^m{\gamma}_{ji}(\boldsymbol{x }_j-\boldsymbol{\mu }_i)=0\notag \\ \sum_{j=1}^m{\gamma}_{ji}\boldsymbol{x }_j=\boldsymbol{\mu }_i\sum_{j=1}^m{\gamma}_{ji} \tag{9.7} \end{align}$

以当前（ $t$ 时）的参数值 $({\alpha}_i^{\,t},\boldsymbol{\mu }_i^{\,t},{\boldsymbol{\Sigma } }_i^{\,t})$ ，根据【西瓜书式(9.28)】即可计算出此时的式(9.6)的值
$\begin{align} {\gamma}_{ji}^{\,t}=\frac{{\alpha}_i^{\,t} p(\boldsymbol{x }_j\,|\,\boldsymbol{\mu }_i^{\,t},{\boldsymbol{\Sigma } }_i^{\,t})}{\sum_{i=1}^k{\alpha}_i^{\,t}p(\boldsymbol{x }_j\,|\,\boldsymbol{\mu }_i^{\,t},{\boldsymbol{\Sigma } }_i^{\,t})} \tag{9.8} \end{align}$

由式(9.8)的已知，代入等式(9.7)，得下一时刻需求解的 $\boldsymbol{\mu }$ ，这样就“凑”成了递推式（将等式变为递推式）
$\begin{align} \sum_{j=1}^m{\gamma}_{ji}^{\,t}\boldsymbol{x }_j=\boldsymbol{\mu }_i^{\,t+1}\sum_{j=1}^m{\gamma}_{ji}^{\,t} \tag{9.9} \end{align}$
即
$\begin{align} \boldsymbol{\mu }_i^{\,t+1}=\frac{\sum_{j=1}^m{\gamma}_{ji}^{\,t}\boldsymbol{x }_j}{\sum_{j=1}^m{\gamma}_{ji}^{\,t}} \tag{9.10} \end{align}$
即【西瓜书式(9.34)】。

（2）参数 ${\boldsymbol{\Sigma } }$
$\begin{align} \frac{\partial |{\boldsymbol{\Sigma } }|^{-\frac{1}{2}}}{\partial {\boldsymbol{\Sigma } }} & ={-\frac{1}{2}}|{\boldsymbol{\Sigma } }|^{-\frac{1}{2}}{\boldsymbol{\Sigma } }^{-\mathrm{T}}\quad \text{（由式(A86)）}\notag \\ & ={-\frac{1}{2}}|{\boldsymbol{\Sigma } }|^{-\frac{1}{2}}{\boldsymbol{\Sigma } }^{-1}\quad \text{（由${\boldsymbol{\Sigma } }$的对称性）} \tag{9.11} \end{align}$
其中用到公式（参见5、含矩阵的偏导数）：
$\begin{align} \frac{\partial |\mathbf{A}|^{-\frac{1}{2}}}{\partial \mathbf{A}} ={-\frac{1}{2}}|\mathbf{A}|^{-\frac{1}{2}}\mathbf{A}^{-\mathrm{T}} \tag{A86} \end{align}$
$\begin{align} & \quad \frac{\partial (\boldsymbol{x }-\boldsymbol{\mu})^{\mathrm{T}}{\boldsymbol{\Sigma } }^{-1}(\boldsymbol{x }-\boldsymbol{\mu})}{\partial {\boldsymbol{\Sigma } }}\notag \\ & =\frac{\partial \mathrm{tr}((\boldsymbol{x }-\boldsymbol{\mu})^{\mathrm{T}}{\boldsymbol{\Sigma } }^{-1}(\boldsymbol{x }-\boldsymbol{\mu}))}{\partial {\boldsymbol{\Sigma } }}\notag \\ & =\frac{\partial \mathrm{tr}((\boldsymbol{x }-\boldsymbol{\mu})(\boldsymbol{x }-\boldsymbol{\mu})^{\mathrm{T}}{\boldsymbol{\Sigma } }^{-1})}{\partial {\boldsymbol{\Sigma } }}\notag \\ & =-{\boldsymbol{\Sigma } }^{-\mathrm{T}}((\boldsymbol{x }-\boldsymbol{\mu})(\boldsymbol{x }-\boldsymbol{\mu})^{\mathrm{T}})^{\mathrm{T}}{\boldsymbol{\Sigma } }^{-\mathrm{T}}\quad \text{（由式(A80)）}\notag \\ & =-{\boldsymbol{\Sigma } }^{-1}(\boldsymbol{x }-\boldsymbol{\mu})(\boldsymbol{x }-\boldsymbol{\mu})^{\mathrm{T}}{\boldsymbol{\Sigma } }^{-1}\quad \text{（由${\boldsymbol{\Sigma } }$的对称性）} \tag{9.12} \end{align}$
其中用到公式（参见5、含矩阵的偏导数）：
$\begin{align} \frac{\partial \mathrm{tr}(\mathbf{B}\mathbf{A}^{-1})}{\partial \mathbf{A}}=-(\mathbf{A}^{-1}\mathbf{B}\mathbf{A}^{-1})^{\mathrm{T}} \tag{A80} \end{align}$
利用式(9.11)、式(9.12)，求【西瓜书式(9.28)】关于矩阵 ${\boldsymbol{\Sigma } }$ 的偏导数，有
$\begin{align} & \quad \frac{\partial P(\boldsymbol{x })}{\partial {\boldsymbol{\Sigma } }}\notag \\ & =\frac{\partial {(2\mathrm{\pi} )^{-\frac{n}{2}}|{\boldsymbol{\Sigma } }|^{-\frac{1}{2}}}\exp\left(-\frac{1}{2}(\boldsymbol{x }-\boldsymbol{\mu})^{\mathrm{T}}{\boldsymbol{\Sigma } }^{-1}(\boldsymbol{x }-\boldsymbol{\mu})\right)}{\partial {\boldsymbol{\Sigma } }}\notag \\ & =\frac{\partial {(2\mathrm{\pi} )^{-\frac{n}{2}}}|{\boldsymbol{\Sigma } }|^{-\frac{1}{2}}}{\partial {\boldsymbol{\Sigma } }}\exp\left(-\frac{1}{2}(\boldsymbol{x }-\boldsymbol{\mu})^{\mathrm{T}}{\boldsymbol{\Sigma } }^{-1}(\boldsymbol{x }-\boldsymbol{\mu})\right)\notag \\ & \ +{(2\mathrm{\pi} )^{-\frac{n}{2}}|{\boldsymbol{\Sigma } }|^{-\frac{1}{2}}}\frac{\partial\exp\left(-\frac{1}{2}(\boldsymbol{x }-\boldsymbol{\mu})^{\mathrm{T}}{\boldsymbol{\Sigma } }^{-1}(\boldsymbol{x }-\boldsymbol{\mu})\right)}{\partial {\boldsymbol{\Sigma } }}\notag \\ & = {(2\mathrm{\pi} )^{-\frac{n}{2}}}({-\frac{1}{2}}|{\boldsymbol{\Sigma } }|^{-\frac{1}{2}}{\boldsymbol{\Sigma } }^{-1})\exp\left(-\frac{1}{2}(\boldsymbol{x }-\boldsymbol{\mu})^{\mathrm{T}}{\boldsymbol{\Sigma } }^{-1}(\boldsymbol{x }-\boldsymbol{\mu})\right)\notag \\ & \quad +{(2\mathrm{\pi} )^{-\frac{n}{2}}|{\boldsymbol{\Sigma } }|^{-\frac{1}{2}}}\exp\left(-\frac{1}{2}(\boldsymbol{x }-\boldsymbol{\mu})^{\mathrm{T}}{\boldsymbol{\Sigma } }^{-1}(\boldsymbol{x }-\boldsymbol{\mu})\right)\frac{\partial(-\frac{1}{2}(\boldsymbol{x }-\boldsymbol{\mu})^{\mathrm{T}}{\boldsymbol{\Sigma } }^{-1}(\boldsymbol{x }-\boldsymbol{\mu}))}{\partial {\boldsymbol{\Sigma } }}\notag \\ & ={-\frac{1}{2}}P(\boldsymbol{x })({\boldsymbol{\Sigma } }^{-1})+P(\boldsymbol{x })\left(-\frac{1}{2}(-{\boldsymbol{\Sigma } }^{-1}(\boldsymbol{x }-\boldsymbol{\mu})(\boldsymbol{x }-\boldsymbol{\mu})^{\mathrm{T}}{\boldsymbol{\Sigma } }^{-1})\right)\notag \\ & ={\frac{1}{2}}P(\boldsymbol{x }){\boldsymbol{\Sigma } }^{-1}\left(-{\boldsymbol{\Sigma } }+(\boldsymbol{x }-\boldsymbol{\mu})(\boldsymbol{x }-\boldsymbol{\mu})^{\mathrm{T}}\right){\boldsymbol{\Sigma } }^{-1} \tag{9.13} \end{align}$
将式(9.13)应用于 $P(\boldsymbol{x }_j\,|\,\boldsymbol{\mu}_i,{\boldsymbol{\Sigma } }_i)$ ，有
$\begin{align} \frac{\partial P(\boldsymbol{x }_j\,|\,\boldsymbol{\mu}_i, {\boldsymbol{\Sigma } }_i)}{\partial {\boldsymbol{\Sigma } }_i} & =\frac{1}{2}P(\boldsymbol{x }_j\,|\,\boldsymbol{\mu}_i, {\boldsymbol{\Sigma } }_i){\boldsymbol{\Sigma } }_i^{-1}[(\boldsymbol{x }_j-\boldsymbol{\mu}_i)(\boldsymbol{x }_j-\boldsymbol{\mu}_i)^{\mathrm{T}}-{\boldsymbol{\Sigma } }_i] {\boldsymbol{\Sigma } }_i^{-1}\tag{9.14} \end{align}$

利用式(9.14)，再求【西瓜书式(9.32)】关于矩阵 ${\boldsymbol{\Sigma } }_i$ 的偏导数，有
$\begin{align} \frac{\partial \mathrm{LL}(D)}{\partial {\boldsymbol{\Sigma } }_i} & =\sum_{j=1}^m\frac{\partial \ln\, ({\sum_{i=1}^k{\alpha}_ip(\boldsymbol{x }_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } }_i)})}{\partial {\boldsymbol{\Sigma } }_i}\notag \\ & =\sum_{j=1}^m\frac{{\alpha}_i }{({\sum_{i=1}^k{\alpha}_ip(\boldsymbol{x }_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } }_i)})}\frac{\partial P(\boldsymbol{x }_j\,|\,\boldsymbol{\mu}_i, {\boldsymbol{\Sigma } }_i)}{\partial {\boldsymbol{\Sigma } }_i}\qquad \text{（下式由式(9.14)）}\notag \\ & =\frac{1}{2}\sum_{j=1}^m\frac{{\alpha}_i P(\boldsymbol{x }_j\,|\,\boldsymbol{\mu}_i, {\boldsymbol{\Sigma } }_i)}{({\sum_{i=1}^k{\alpha}_ip(\boldsymbol{x }_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } }_i)})}{\boldsymbol{\Sigma } }_i^{-1}[(\boldsymbol{x }_j-\boldsymbol{\mu}_i)(\boldsymbol{x }_j-\boldsymbol{\mu}_i)^{\mathrm{T}}-{\boldsymbol{\Sigma } }_i] {\boldsymbol{\Sigma } }_i^{-1}\notag \\ & =\frac{1}{2}\sum_{j=1}^m{\gamma}_{ji} [{\boldsymbol{\Sigma } }_i^{-1}(\boldsymbol{x }_j-\boldsymbol{\mu}_i)(\boldsymbol{x }_j-\boldsymbol{\mu}_i)^{\mathrm{T}}{\boldsymbol{\Sigma } }_i^{-1}-{\boldsymbol{\Sigma } }_i^{-1}]\qquad \text{（由式(9.6)）}\notag \\ & =\frac{1}{2}{\boldsymbol{\Sigma } }_i^{-1}\left(\sum_{j=1}^m{\gamma}_{ji} [(\boldsymbol{x }_j-\boldsymbol{\mu}_i)(\boldsymbol{x }_j-\boldsymbol{\mu}_i)^{\mathrm{T}}-{\boldsymbol{\Sigma } }_i]\right){\boldsymbol{\Sigma } }_i^{-1} \tag{9.15} \end{align}$

令 $\frac{\partial \mathrm{LL}(D)}{\partial {\boldsymbol{\Sigma } }_i}=\mathbf{0}$ ，得
$\begin{align} \sum_{j=1}^m{\gamma}_{ji}(\boldsymbol{x }_j-\boldsymbol{\mu}_i)(\boldsymbol{x }_j-\boldsymbol{\mu}_i)^{\mathrm{T}}={\boldsymbol{\Sigma } }_i\sum_{j=1}^m{\gamma}_{ji} \tag{9.16} \end{align}$
同式(9.9)的方法，由等式“凑”出递推式
$\begin{align} {\boldsymbol{\Sigma } }_i^{\,t+1}=\frac{\sum_{j=1}^m{\gamma}_{ji}^{\,t}(\boldsymbol{x }_j-\boldsymbol{\mu}_i^{\,t})(\boldsymbol{x }_j-\boldsymbol{\mu}_i^{\,t})^{\mathrm{T}}}{\sum_{j=1}^m{\gamma}_{ji}^{\,t}} \tag{9.17} \end{align}$
即【西瓜书式(9.35)】，该式为矩阵。

（3）参数 ${\alpha}$

在 $\mathrm{LL}(D)$ 中若将混合系数 ${\alpha}_i$ 视为变量，则它有约束： ${\alpha}_i> 0,\, \sum_{i=1}^k{\alpha}_i=1$ ，故需要拉格朗日乘数法，由此得到拉格朗日函数【西瓜书式(9.36)】，令其对 ${\alpha}$ 的导数为0，则得到【西瓜书式(9.37)】。

观察【西瓜书式(9.37)】发现：与式(9.6)比较，它的分数项分子缺 ${\alpha}_i$ ，两边乘以 ${\alpha}_i$ 即可配成式(9.6)，则有
$\begin{align} \sum_{j=1}^m{\gamma}_{ji} +\lambda {\alpha }_i=0 \tag{9.18} \end{align}$
对 $i$ 求和，有
$\begin{align} 0 & =\sum_{i=1}^k(\sum_{j=1}^m{\gamma}_{ji} +\lambda {\alpha }_i)\notag \\ & =\sum_{i=1}^k\sum_{j=1}^m{\gamma}_{ji} +\lambda \sum_{i=1}^k{\alpha }_i\notag \\ & =\sum_{j=1}^m\sum_{i=1}^k{\gamma}_{ji}+\lambda \qquad \text{（由于$\sum_{i=1}^k{\alpha }_i=1$）}\notag \\ & =\sum_{j=1}^m1+\lambda \qquad \text{（由于$\sum_{i=1}^k{\gamma}_{ji}=1$）}\notag \\ & =m+\lambda\notag \\ \therefore \qquad \quad \lambda & =-m \tag{9.19} \end{align}$

由式(9.18)、式(9.19)“凑”出递推式
$\begin{align} {\alpha }_i^{\,t+1}=\frac{1}{m}\sum_{j=1}^m{\gamma}_{ji}^{\,t} \tag{9.20} \end{align}$
即【西瓜书式(9.38)】。

有了上述递推式，则可套用EM算法：

E步：根据当前时刻（ $t$ 时）的参数，由式(9.8)计算当前时刻的 ${\gamma}_{ji}^{\,t}$ 。
M步：由 ${\gamma}_{ji}^{\,t}$ 及递推式(9.10)、式(9.17)、式(9.20)更新下一时刻（ $t + 1$ ）的参数。

整理成伪代码即为【西瓜书图9.6】所示的高斯混合聚类算法。

注：代码中并没有体现出关于时刻的符号 $t$ ，这是由于程序运行的过程隐含地体现了时刻，若显示地体现，则会引入较多的变量，占用较多的存储空间，需要寻址、赋值等，反而不方便。

至此，我们完成了高斯混合聚类算法的推导，看官如果还不过瘾的话，我们再来推导一次——按EM的（II）的方法：将样本的成分标识视为隐变量，使用EM算法。

首先，我们设定要素及准备有关公式。

（1）参数： $k$ 个成分的高斯混合分布的参数为 ${\Theta}=(\{{\mu }_i,{\boldsymbol{\Sigma } }_i,{\alpha }_i\}_{i=1}^k)$ ，在序列(7.33)中（7.10 EM算法的使用场景及步骤），
$\begin{align} {\Theta}^0,{\Theta}^1,{\Theta}^2,\cdots,{\Theta}^{\,t},{\Theta}^{\,t+1},\cdots \tag{7.33} \end{align}$
${\Theta}^{\,t}=(\{{\mu }_i^t,{\boldsymbol{\Sigma } }_i^t,{\alpha }_i^t\}_{i=1}^k)$ 。

（2）隐变量：将样本 $\boldsymbol{x }$ 所属的成分（簇）作为其隐变量 $z$ ，根据混合成分分布的定义我们给出关联的“事件”概率。

{混合成分中产生的样本 $\boldsymbol{x}$ 属于第 $i$ 个成分}={选取第 $i$ 个成分} $\bigcap$ {在该成分中产生样本 $\boldsymbol{x}$ }
，则该事件发生的概率表达式有
$\begin{align} P(\boldsymbol{x },z=i\,|\,\Theta) & ={\alpha}_i P(\boldsymbol{x }\,|\,{\Theta}_i) \tag{9.21} \end{align}$
注：这时， $\boldsymbol{x }$ 只与 $\Theta$ 中的成分 $i$ 的参数 ${\Theta}_i$ 有关。

{混合成分中产生样本 $\boldsymbol{x}$ }= ${\bigcup}_{i=1}^k$ {在第 $i$ 个成分中产生样本 $\boldsymbol{x}$ }，则该事件发生的概率表达式有
$\begin{align} P(\boldsymbol{x }\,|\,\Theta) & =\sum_{i=1}^k{\alpha}_i P(\boldsymbol{x }\,|\,{\Theta}_i) \tag{9.22} \end{align}$

式(9.21)、式(9.22)对于混合成分分布都成立，而对于高斯混合，式中的 $P(\boldsymbol{x }\,|\,{\Theta}_i)$ 由【西瓜书式(9.28)】所定义。这时， $P$ 实际上是 $p$ （概率分布密度），由于本书主要讨论离散型随机变量，常用大写的 $P$ （即并不去严格区分它的大小写），根据上下文理解：针对离散型则为概率，针对连续型则为概率分布密度。

由式(9.21)得到关于 $z$ 的分段函数
$\begin{align} P(\boldsymbol{x },z\,|\,\Theta) & ={\alpha}_i P(\boldsymbol{x }\,|\,{\Theta}_i),\ (\text{若}\ z=i),i=1,2,\cdots,k \tag{9.23} \end{align}$

将指示函数应用于该分段函数，有
$\begin{align} P(\boldsymbol{x },z\,|\,\Theta) & =\prod_{i=1}^k[{\alpha}_i P(\boldsymbol{x }\,|\,{\Theta}_i)]^{\mathbb{I}(z=i)}\qquad \text{（由式(B8)）} \tag{9.24} \end{align}$
其中用到公式（参见6、指示函数及应用（将分段函数表达成一个式子的技术））：
$\begin{align} f(\boldsymbol{x})=\mathop{\prod}\limits_{i=1}^na_i(\boldsymbol{x})^{\mathbb{I}[A_i(\boldsymbol{x})]} \tag{B8} \end{align}$
（3）隐变量 $z$ 的分布：由式(9.21)、式(9.22)及贝叶斯公式，有
$\begin{align} P(z=i\,|\,\boldsymbol{x },\Theta) & =\frac{ P(\boldsymbol{x },z=i\,|\,\Theta)}{P(\boldsymbol{x }\,|\,\Theta)}\notag \\ & =\frac{ {\alpha}_i P(\boldsymbol{x }\,|\,{\Theta}_i)}{\sum_{i=1}^k{\alpha}_i P(\boldsymbol{x }\,|\,{\Theta}_i)} \tag{9.25} \end{align}$
当已知 $\boldsymbol{x }_j$ 时，对应的隐变量 $z$ 在时刻 $t$ 的后验分布为
$\begin{align} P(z_j=i\,|\,\boldsymbol{x }_j,{\Theta}^{\,t}) =\frac{ {\alpha}_i^{\,t} P(\boldsymbol{x }_j\,|\,{\Theta}_i^{\,t})}{\sum_{i=1}^k{\alpha}_i^{\,t} P(\boldsymbol{x }_j\,|\,{\Theta}_i^{\,t})}={\gamma}_{ji}^{\,t} \tag{9.26} \end{align}$
其中， ${\gamma}_{ji}^{\,t}$ 即为式(9.8)，这即为【西瓜书式(9.30)】。

（4）设样本集为： $D'=\{\boldsymbol{x }_j,z_j\}_{j=1}^m$ ，其中， $z_j$ 为样本所属的成分变量（隐变量），记 $\mathbf{X}=\{\boldsymbol{x }_j\}_{j=1}^m,\ \mathbf{Z}=\{z_j\}_{j=1}^m$ 。
具体化 $Q(\Theta\,|\,{\Theta}^{\,t})$ ：
$\begin{align} Q(\Theta\,|\,{\Theta}^{\,t}) & = {\mathbb{E} }_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}\mathrm{LL}(\Theta\,|\,\mathbf{X},\mathbf{Z})\qquad \text{（由【西瓜书式(7.36)】）}\notag \\ & = {\mathbb{E} }_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}\ln\, P(\mathbf{X},\mathbf{Z}\,|\,\Theta)\notag \\ & = {\mathbb{E} }_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}\ln\, \prod_{j=1}^m P(\boldsymbol{x }_j,z_j\,|\,\Theta)\notag \\ & = {\mathbb{E} }_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}} \sum_{j=1}^m \ln\, P(\boldsymbol{x }_j,z_j\,|\,\Theta)\notag \\ & = {\mathbb{E} }_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}} \sum_{j=1}^m \ln\, \prod_{i=1}^k( {\alpha}_i P(\boldsymbol{x }_j\,|\,{\Theta}_i))^{\mathbb{I}(z_j=i)} \qquad \text{（由式(9.24)）}\notag \\ & = \sum_{j=1}^m {\mathbb{E} }_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}} \left (\sum_{i=1}^k{\mathbb{I}(z_j=i)}\ln({\alpha}_i P(\boldsymbol{x }_j\,|\,{\Theta}_i))\right)\notag \\ & = \sum_{j=1}^m \sum_{i=1}^k\left ({\mathbb{E} }_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}} {\mathbb{I}(z_j=i)}\right)\ln({\alpha}_i P(\boldsymbol{x }_j\,|\,{\Theta}_i))\notag \\ & = \sum_{j=1}^m \sum_{i=1}^k\left ({\mathbb{E} }_{z_j\,|\,\boldsymbol{x}_j,{\Theta}^{\,t}} {\mathbb{I}(z_j=i)}\right)\ln({\alpha}_i P(\boldsymbol{x }_j\,|\,{\Theta}_i))\ \text{（${\mathbb{E} }$作用域只含$z_j$）}\notag \\ & = \sum_{j=1}^m \sum_{i=1}^k P(z_j=i\,|\,\boldsymbol{x}_j,{\Theta}^{\,t})\ln({\alpha}_i P(\boldsymbol{x }_j\,|\,{\Theta}_i))\qquad \text{（由式(B11)）}\notag \\ & = \sum_{j=1}^m \sum_{i=1}^k{\gamma}_{ji}^{\,t} \ln({\alpha}_i P(\boldsymbol{x }_j\,|\,{\Theta}_i))\qquad \text{（由式(9.26)）}\notag \\ & = \sum_{j=1}^m \sum_{i=1}^k{\gamma}_{ji}^{\,t} \ln{\alpha}_i+\sum_{j=1}^m \sum_{i=1}^k{\gamma}_{ji}^{\,t}\ln\, P(\boldsymbol{x }_j\,|\,{\Theta}_i) \end{align}$
其中用到公式（参见6、指示函数及应用（将分段函数表达成一个式子的技术））：
$\begin{align} \mathop{\mathbb{E} }\limits_{x\in D}\mathbb{I}_A (x) & =P(x\in A) \tag{B11} \end{align}$
即有
$\begin{align} Q(\Theta\,|\,{\Theta}^{\,t})= \sum_{j=1}^m \sum_{i=1}^k{\gamma}_{ji}^{\,t} \ln{\alpha}_i+\sum_{j=1}^m \sum_{i=1}^k{\gamma}_{ji}^{\,t}\ln\, P(\boldsymbol{x }_j\,|\,{\Theta}_i) \tag{9.27} \end{align}$
有了上述准备后，即可使用EM算法：

E步：

（1）推断隐变量分布： $P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t})$ ，这时它等价为 $P(z_j\,|\,\boldsymbol{x}_j,{\Theta}^{\,t}),\, j=1,2,\cdots,k$ ，即式(9.26)，其中参数即为当前参数，而 $\boldsymbol{x}_j$ 也已知，由【西瓜书式(9.28)】和式(9.26)即可计算 ${\gamma}_{ji}^{\,t}$ 。

（2）列出 $Q$ 的表达式：即式(9.27)。

M步：求 $Q$ 的最大值点：

由式(9.27)有
$\begin{align} \frac{\partial Q(\Theta\,|\,{\Theta}^{\,t})}{\partial \boldsymbol{\mu }_i } & = 0+\sum_{j=1}^m \left( {\gamma}_{ji}^{\,t}\frac{\partial\ln\, P(\boldsymbol{x }_j\,|\,{\Theta}_i)}{\partial \boldsymbol{\mu }_i }+\sum_{l\neq i} {\gamma}_{jl}^{\,t}\frac{\partial\ln\, P(\boldsymbol{x }_j\,|\,{\Theta}_l)}{\partial \boldsymbol{\mu }_i }\right)\notag \\ & = \sum_{j=1}^m \left( {\gamma}_{ji}^{\,t}\frac{1}{P(\boldsymbol{x }_j\,|\,{\Theta}_i)}\frac{\partial P(\boldsymbol{x }_j\,|\,{\Theta}_i)}{\partial \boldsymbol{\mu }_i }+0\right)\notag \\ & = -\sum_{j=1}^m {\gamma}_{ji}^{\,t}\frac{1}{P(\boldsymbol{x }_j\,|\,{\Theta}_i)}p(\boldsymbol{x }_j\,|\,\boldsymbol{\mu }_i,{\boldsymbol{\Sigma } }_i){\boldsymbol{\Sigma } }_i^{-1}(\boldsymbol{x }_j-\boldsymbol{\mu }_i)\quad \text{（由式(9.4)）}\notag \\ & = -{\boldsymbol{\Sigma } }_i^{-1}\sum_{j=1}^m {\gamma}_{ji}^{\,t}(\boldsymbol{x }_j-\boldsymbol{\mu }_i) \tag{9.28} \end{align}$
令 $\frac{\partial Q(\Theta\,|\,{\Theta}^{\,t})}{\partial \boldsymbol{\mu }_i }=\boldsymbol{0}$ ，则得与式(9.10)一致的结果：
$\begin{align} \boldsymbol{\mu }_i^{\,t+1}=\frac{\sum_{j=1}^m{\gamma}_{ji}^{\,t}\boldsymbol{x }_j}{\sum_{j=1}^m{\gamma}_{ji}^{\,t}} \tag{9.29} \end{align}$
即【西瓜书式(9.34)】。