（《机器学习》完整版系列）第7章贝叶斯分类器——7.10 EM算法的使用场景及步骤（反复循环执行E步和M步）

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129229074

EM的使用场景为：已知“结构”（如，贝叶斯网）和“可观察数据”的一个数据集，隐变量的数据未知，求参数。
EM算法的步骤：反复循环执行E步和M步

EM算法的步骤

7.9 EM原理的详细数学推导知，取序列(7.66)中的 ${\Theta}^{\,t}$ （足够大的 $t$ ）作为 ${\Theta}^{*}$ 的近似解。

设从某个初始值 ${\Theta}^0$ 开始，生成序列(7.66)（为叙述方便，再写一遍：生成如下序列(7.73)）
$\begin{align} {\Theta}^0,{\Theta}^1,{\Theta}^2,\cdots,{\Theta}^{\,t},{\Theta}^{\,t+1},\cdots \tag{7.73} \end{align}$
的方法是反复循环执行如下两步骤（E步和M步）：

E步（指 $\mathbb{E}$ ）：

（1）推断隐变量分布： $P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t})$

（2）求 $\mathrm{LL}$ 的期望，即 $Q$ 的表达式（其中 $\mathbb{E}$ 用到（1）的结果）：
$\begin{align} Q(\Theta\,|\,{\Theta}^{\,t}) \mathop{=} \limits^{\mathrm{def}} \mathop{\mathbb{E} }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}\, \mathrm{LL}(\Theta\,|\,\mathbf{X},\mathbf{Z}) \tag{7.74} \end{align}$
M步（指 $\max$ ）：
$\begin{align} {\Theta}^{\,t+1}=\mathop{\arg\max}\limits_{\Theta}Q(\Theta\,|\,{\Theta}^{\,t}) \tag{7.75} \end{align}$

生成序列(7.73)后，取足够大的 $t$ ， ${\Theta}^{\,t}$ 即为最优参数 ${\Theta}^*$ 的估值。

EM算法过程也体现了对两个 $\mathbf{Z},\Theta$ 变量采用“交替固定”的处理思路。

上述是基于MLE的EM算法，当基于MAP时，只需将M步改为下式即可：
$\begin{align} {\Theta}^{\,t+1}=\mathop{\arg\max}\limits_{\Theta}\ Q(\Theta\,|\,{\Theta}^{\,t})+\ln P(\Theta) \tag{7.76} \end{align}$

特别地，当数据集 $D$ 中没有缺失属性（隐变量）时，有两种办法处理：

（1）作为0个隐变量时，式(7.74)变为
$\begin{align} Q(\Theta\,|\,{\Theta}^{\,t}) & =\mathrm{LL}(\Theta\,|\,\mathbf{X})\notag \\ & =\mathrm{LL}(\Theta\,|\,D) \tag{7.77} \end{align}$
即为数据集 $D$ 的对数似然。这时M步即为极大似然估计，当过程能推导出递推式时，也可以用EM步骤（例如，【西瓜书式(9.32)】推导出参数【西瓜书式(9.34)(9.35)(9.349)】，替换掉中间变量 ${\gamma}_{ji}$ 即可得递推式）。