（《机器学习》完整版系列）第7章贝叶斯分类器——7.9 EM原理的详细数学推导

人工干智能

已于 2023-03-31 10:34:15 修改

阅读量170

点赞数

分类专栏：周志华【西瓜书】辅导《机器学习》文章标签：机器学习概率论算法人工智能

于 2023-02-26 17:25:51 首次发布

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129228884

版权

周志华【西瓜书】辅导同时被 2 个专栏收录

143 篇文章 24 订阅

订阅专栏

《机器学习》

143 篇文章 5 订阅

订阅专栏

本文给出了EM原理的严谨的数学推导

EM原理

这里我们给出EM原理的数学推导，该过程充分体现了贝叶斯学派观点的应用（参见7.1 贝叶斯决策论（贝叶斯学派与频率学派有很大的分岐）最后一段）。

由贝叶斯公式【西瓜书式(7.7)】有
$\begin{align} \ln P(\mathbf{X}\,|\,\Theta) & =\ln \left[\frac{P(\mathbf{X},\mathbf{Z}\,|\,\Theta)}{P(\mathbf{Z}\,|\,\mathbf{X},\Theta)}\right]\notag \\ & =\ln P(\mathbf{X},\mathbf{Z}\,|\,\Theta)-\ln P(\mathbf{Z}\,|\,\mathbf{X},\Theta) \tag{7.59} \end{align}$
将其改为对数似然表达（即将式(7.52)、式(7.55)代入），则有恒等式
$\begin{align} \mathrm{LL}(\Theta\,|\,\mathbf{X}) & =\mathrm{LL}(\Theta\,|\,\mathbf{X},\mathbf{Z})-\ln P(\mathbf{Z}\,|\,\mathbf{X},\Theta) \tag{7.60} \end{align}$
希望找到 ${\Theta}$ 的迭代式，设 ${\Theta}$ 在时刻 $t$ 时为 ${\Theta}^{\,t}$ ，对两边取关于 $\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}$ 的数学期望，左边对 $\mathbf{Z}$ 而言是常数，故有恒等式
$\begin{align} \mathrm{LL}(\Theta\,|\,\mathbf{X}) & =\mathop{\mathbb{E} }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}\, \mathrm{LL}(\Theta\,|\,\mathbf{X},\mathbf{Z})-\mathop{\mathbb{E} }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}\, \ln P(\mathbf{Z}\,|\,\mathbf{X},\Theta) \tag{7.61} \end{align}$
其中， $\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}$ 表示在已知 $\mathbf{X},{\Theta}^{\,t}$ 的条件下， $\mathbf{Z}$ 的分布。

式(7.61)的第一项即为式(7.58)所要研究的式子，记为
$\begin{align} Q(\Theta\,|\,{\Theta}^{\,t}) \mathop{=} \limits^{\mathrm{def}} \mathop{\mathbb{E} }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}\, \mathrm{LL}(\Theta\,|\,\mathbf{X},\mathbf{Z}) \tag{7.62} \end{align}$

式(7.61)的第二项记为
$\begin{align} R(\Theta\,|\,{\Theta}^{\,t}) \mathop{=} \limits^{\mathrm{def}} \mathop{\mathbb{E} }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}\, \ln P(\mathbf{Z}\,|\,\mathbf{X},\Theta) \tag{7.63} \end{align}$

由式(7.62)、式(7.63)，则式(7.61)变为
$\begin{align} \mathrm{LL}(\Theta\,|\,\mathbf{X})=Q(\Theta\,|\,{\Theta}^{\,t})-R(\Theta\,|\,{\Theta}^{\,t}) \tag{7.64} \end{align}$

类似于极大似然法，我们这里对对数似然的数学期望式(7.62)求极大，设求得的极大值点为 ${\Theta}^{\,t+1}$ ，则
$\begin{align} {\Theta}^{\,t+1}=\mathop{\arg\max}\limits_{\Theta}Q(\Theta\,|\,{\Theta}^{\,t}) \tag{7.65} \end{align}$

从某个初始值 ${\Theta}^0$ 开始，反复用递推式(7.65)就可以得到一个序列
$\begin{align} {\Theta}^0,{\Theta}^1,{\Theta}^2,\cdots,{\Theta}^{\,t},{\Theta}^{\,t+1},\cdots \tag{7.66} \end{align}$

由式(7.65)有
$\begin{align*} Q({\Theta}^{\,t+1}\,|\,{\Theta}^{\,t})=\mathop{\max}\limits_{\Theta}Q(\Theta\,|\,{\Theta}^{\,t}) \end{align*}$

即有不等式
$\begin{align} Q({\Theta}^{\,t+1}\,|\,{\Theta}^{\,t})\geqslant Q({\Theta}^{\,t}\,|\,{\Theta}^{\,t}) \tag{7.67} \end{align}$

由式(7.63)有
$\begin{align} & \quad R({\Theta}^{\,t+1}\,|\,{\Theta}^{\,t})-R({\Theta}^{\,t}\,|\,{\Theta}^{\,t})\notag \\ & =\mathop{\mathbb{E} }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}\, \ln P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t+1}) -\mathop{\mathbb{E} }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}\, \ln P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}) \notag \\ & =\mathop{\mathbb{E} }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}\, \ln \frac{P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t+1})}{P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t})}\notag \\ & \leqslant \ln \mathop{\mathbb{E} }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}\, \frac{P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t+1})}{P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t})}\notag \\ & \quad \quad \text{（由Jensen不等式【西瓜书式(12.4)】）}\notag \\ & =\ln \mathop{\sum }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t})\frac{P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t+1})}{P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t})}\quad \text{（由${\mathbb{E} }$的定义）}\notag \\ & =\ln \mathop{\sum }\limits_{\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t}}{P(\mathbf{Z}\,|\,\mathbf{X},{\Theta}^{\,t+1})}\notag \\ & =\ln 1\notag \\ & =0\notag \\ \text{即： }R({\Theta}^{\,t+1}\,|\,{\Theta}^{\,t}) & \leqslant R({\Theta}^{\,t}\,|\,{\Theta}^{\,t}) \tag{7.68} \end{align}$
其中，使用Jensen不等式要注意：Jensen不等式是对“下凸”函数而言，若“下凹”则反号，由对数函数图像知 $\ln$ 是“下凹”函数，故不等式相反。

由式(7.64)、式(7.67)、式(7.68) 知
$\begin{align} \mathrm{LL}({\Theta}^{\,t+1}\,|\,\mathbf{X}) & =Q({\Theta}^{\,t+1}\,|\,{\Theta}^{\,t})-R({\Theta}^{\,t+1}\,|\,{\Theta}^{\,t})\quad \text{（式(7.64)中令${\Theta}={\Theta}^{\,t+1}$）}\notag \\ & \geqslant Q({\Theta}^{\,t}\,|\,{\Theta}^{\,t})-R({\Theta}^{\,t}\,|\,{\Theta}^{\,t})\notag \\ & =\mathrm{LL}({\Theta}^{\,t}\,|\,\mathbf{X})\quad \text{（式(7.64)中令${\Theta}={\Theta}^{\,t}$）} \tag{7.69} \\ \mathrm{LL}({\Theta}^{\,t}\,|\,\mathbf{X}) & =\ln P(\mathbf{X}\,|\,{\Theta}^{\,t})\notag \\ & \leqslant \ln 1\notag \\ & =0 \tag{7.70} \end{align}$

不等式(7.69)说明序列 $\{\mathrm{LL}({\Theta}^{\,t}\,|\,\mathbf{X})\}_{t=0}^{+\infty }$ 是单调递增，不等式(7.70)说明该序列有界，数学知识告诉我们：单调递增有界必收敛到极大值。即序列 $\{\mathrm{LL}({\Theta}^{\,t}\,|\,\mathbf{X})\}_{k=0}^{+\infty }$ 是与序列(7.66)（ $\{{\Theta}^{\,t}\}_{k=0}^{+\infty }$ ）对应的，且足够大的 $t$ 后，序列(7.66)的 ${\Theta}^{\,t}$ 使得序列 $\{\mathrm{LL}({\Theta}^{\,t}\,|\,\mathbf{X})\}$ 趋于稳定（收敛性），这时，可取足够大的 $T$ ，有
$\begin{align} \begin{cases} \mathop{\lim}\limits_{t \to {+\infty}} \mathrm{LL}({\Theta}^{\,t}\,|\,\mathbf{X})= \mathop{\max}\limits_{{\Theta}\in \text{序列(7.66)} } \mathrm{LL}({\Theta}\,|\,\mathbf{X}) \\ \mathop{\lim}\limits_{t \to {+\infty}} \mathrm{LL}({\Theta}^{\,t}\,|\,\mathbf{X})\thickapprox \mathrm{LL}({\Theta}^{\,T}\,|\,\mathbf{X}) \\ \end{cases} \tag{7.71} \end{align}$

设
$\begin{align} {\Theta}^{**} & =\mathop{\arg\max}\limits_{{\Theta}\in \text{序列(7.66)} } \mathrm{LL}({\Theta}\,|\,\mathbf{X})\notag \\ & \thickapprox \mathop{\arg}\limits_{{\Theta}^{\,T}} \mathrm{LL}({\Theta}^{\,T}\,|\,\mathbf{X})\notag \\ & ={\Theta}^{\,T}\quad \text{（这时${\Theta}^{\,T}$是已由序列(7.66)求出）} \tag{7.72} \end{align}$
即 ${\Theta}^{\,T}$ （足够大的 $T$ ）作为 ${\Theta}^{**}$ 的近似解。

原目标是求式(7.57) ${\Theta}^*=\mathop{\arg\max}\limits_{\Theta}\mathrm{LL}(\Theta\,|\,\mathbf{X})$ ，而序列(7.66)可视为一条搜寻路径，即最优值 ${\Theta}^{**}$ 为式(7.57)中 ${\Theta}^{*}$ 的一个特解（搜索到的），因此， ${\Theta}^{\,T}$ （足够大的 $T$ ）可作为 ${\Theta}^{*}$ 的近似解。