（《机器学习》完整版系列）第14章概率图模型——14.10 变分推断用于EM算法

人工干智能

已于 2023-03-31 11:05:34 修改

阅读量193

点赞数

分类专栏：周志华【西瓜书】辅导《机器学习》文章标签：算法机器学习人工智能

于 2023-03-21 10:47:33 首次发布

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129683516

版权

周志华【西瓜书】辅导同时被 2 个专栏收录

143 篇文章 27 订阅

订阅专栏

《机器学习》

143 篇文章 5 订阅

订阅专栏

EM算法可视为“推断隐变量分布”和“求参数”交替进行。这里应用变分推断方法推断隐变量分布。

变分推断用于EM算法

（1）回顾7.10 EM算法的使用场景及步骤（反复循环执行E步和M步）的EM算法

E步：推断隐变量分布 $p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}},{\Theta}^{\,t})$
M步：求参数 ${\Theta}^{\,t+1}$
$\begin{align} {\Theta}^{\,t+1}=\mathop{\arg\max}\limits_{\Theta}Q(\Theta\,|\,{\Theta}^{\,t}) \tag{14.85} \end{align}$

其中
$\begin{align} Q(\Theta\,|\,{\Theta}^{\,t}) & = \mathop{\mathbb{E} }\limits_{\boldsymbol{\mathrm{z}}\sim p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}},{\Theta}^{\,t})}\, \mathrm{LL}(\Theta\,|\,\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})\notag \\ & = \sum_{\boldsymbol{\mathrm{z}} }p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}},{\Theta}^{\,t})\, \ln\, P(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}}\,|\,\Theta) \tag{14.86} \end{align}$
EM算法可视为“推断隐变量分布”和“求参数”交替进行。

EM算法中需要推断隐变量分布，在7.9 EM原理的详细数学推导中，讨论了构造贝叶斯网络推断分布 $p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}},{\Theta}^{\,t})$ ，并通过吉布斯采样计算式(14.86)，这里应用的前述新方法（变分推断）推断隐变量分布。

将时刻 ${\Theta}^{\,t}$ 的 $p$ 记为 $p_{{\Theta}^{\,t}}$ ，如， $p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}},{\Theta}^{\,t})=p_{{\Theta}^{\,t}}(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}})$ ，其余类似。这时，即可利用变分推断求出 $p_{{\Theta}^{\,t}}(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}})$ （视为变分推断中的 $p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}})$ ）的近似分布。

（2）上述是随机向量 $\boldsymbol{\mathrm{x}}$ 依赖于隐含变量 $\boldsymbol{\mathrm{z}}$ ，下面讨论一组随机向量 $\boldsymbol{\mathrm{x}}_i$ 依赖于同一隐含变量 $\boldsymbol{\mathrm{z}}$ 的情形。

【西瓜书图14.10】引入盘式记法：将处于同等地位的独立个体，以“代表”方式在图中体现，并标上个体数，放到一个盘子（方框）中，非常简洁。变量集 $\boldsymbol{\mathrm{x}}=\{\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_N\}$ 就是盘中的变量（ $N$ 个），是可观察的，而它所依赖的变量 $\boldsymbol{\mathrm{z}}$ 是隐变量，系统中还有参数 $\Theta$ ，则
$\begin{align} p(\boldsymbol{\mathrm{x}}\,|\,\Theta ) & =\prod _{i=1}^Np(\boldsymbol{x}_i\,|\,\Theta) \quad \text{（由独立性）} \notag \\ & =\prod _{i=1}^N\sum_{\boldsymbol{\mathrm{z}}}p(\boldsymbol{x}_i,\boldsymbol{\mathrm{z}}\,|\,\Theta) \quad \text{（边缘分布）} \tag{14.87} \end{align}$
值得注意的是：当 $\boldsymbol{x}_1$ 与 $\boldsymbol{x}_2$ 独立时，能推出 $P(\boldsymbol{x}_2\,|\,\boldsymbol{x}_1)=P(\boldsymbol{x}_2)$ ，但不能推出 $P(\boldsymbol{x}_2\,|\,\boldsymbol{x}_1,\boldsymbol{z})=P(\boldsymbol{x}_2\,|\,\boldsymbol{z})$ ，一个常犯的错误是以为能推出后者。

取对数即得【西瓜书式(14.30)】的对数似然函数：
$\begin{align} \mathrm{LL}(\Theta\,|\,\boldsymbol{\mathrm{x}}) & =\sum _{i=1}^N\ln \left(\sum_{\boldsymbol{\mathrm{z}}}p(\boldsymbol{x}_i,\boldsymbol{\mathrm{z}}\,|\,\Theta) \right) \tag{14.88} \end{align}$

比较【西瓜书式(14.30)】与【西瓜书式(7.35)】，当 $N = 1$ 时，二者一致。

既然EM算法可以用于【西瓜书式(7.35)】来求解 $\Theta$ 及 $p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}},\Theta)$ ，那么，当然可将其推广用于【西瓜书式(14.30)】。

这时有
$\begin{align} \ln \, P(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}}\,|\,\Theta) & =\ln \,P(\boldsymbol{\mathrm{x}}\,|\,\Theta)P(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}},\Theta)\notag \\ & =\ln \,P(\boldsymbol{\mathrm{x}}\,|\,\Theta)+\ln \,P(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}},\Theta)\notag \\ & =\sum _{i=1}^N\ln \left(\sum_{\boldsymbol{\mathrm{z}}}p(\boldsymbol{x}_i,\boldsymbol{\mathrm{z}}\,|\,\Theta) \right)+\ln \,P(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}},\Theta) \tag{14.89} \end{align}$
式(14.89)代入式(14.86)，即
$\begin{align} Q(\Theta\,|\,{\Theta}^{\,t}) & = \sum_{\boldsymbol{\mathrm{z}} }p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}},{\Theta}^{\,t})\, \left(\sum _{i=1}^N\ln \left(\sum_{\boldsymbol{\mathrm{z}}}p(\boldsymbol{x}_i,\boldsymbol{\mathrm{z}}\,|\,\Theta) \right)+\ln \,P(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}},\Theta)\right) \tag{14.90} \end{align}$