机器学习之变分推断(三)基于平均场假设变分推断与广义EM

静静的喝酒

已于 2022-09-18 22:05:22 修改

阅读量1.2k

点赞数 1

分类专栏：机器学习文章标签：机器学习经典变分推断平均场假设坐标上升法广义EM

于 2022-09-18 13:57:54 首次发布

本文链接：https://blog.csdn.net/qq_34758157/article/details/126915662

版权

机器学习笔记之变分推断——基于平均场假设变分推断与广义EM

引言

引言

上一节介绍了基于平均场假设 的变分推断推导过程。本节将介绍平均场假设变分推断与广义EM之间的联系。

回顾：基于平均场假设的变分推断

首先，平均场理论(Mean Theory)是一个物理学的概念，将隐变量在概率图中的状态变量 划分成 $\mathcal M$ 个组，将整个关于 隐变量的概率分布看作 $\mathcal M$ 个独立的子概率分布。数学符号表示如下：
$\begin{aligned} \mathcal Q(\mathcal Z) & = \prod_{i=1}^{\mathcal M} \mathcal Q_i(\mathcal Z^{(i)}) \\ & = \mathcal Q_1(\mathcal Z^{(1)}) \cdot \mathcal Q_2(\mathcal Z^{(2)}) \cdots \mathcal Q_{\mathcal M}(\mathcal Z^{(\mathcal M)}) \end{aligned}$
由于平均场假设， $\mathcal Q(\mathcal Z)$ 内部各子概率分布 $\mathcal Q_{i}(\mathcal Z^{(i)})$ 之间相互独立，因此，在求解 任一子概率分布 $\mathcal Q_j(\mathcal Z^{(j)})(j \in \{1,2,\cdots,\mathcal M\})$ 过程中，可以通过固定剩余的 $\mathcal M - 1$ 项进行求解。令：
注意：由于只将 $\mathcal Z^{(j)}$ 看作变量，因此该期望基于的分布 $\prod_{i \neq j}^{\mathcal M} \mathcal Q_i(\mathcal Z^{(i)})$ 是已知分布。同理，隐变量 $\mathcal Z = (\mathcal Z^{(1)},\mathcal Z^{(2)},\cdots,\mathcal Z^{(\mathcal M)})$ 中只有 $\mathcal Z^{(j)}$ 是变量，其余均是常数。因此，将该期望视作关于 $\mathcal X,\mathcal Z^{(j)}$ 的函数。
$\mathbb E_{\prod_{i \neq j}^{\mathcal M} \mathcal Q_i(\mathcal Z^{(i)})} \left[ \log P(\mathcal X,\mathcal Z)\right] = \log \hat \phi (\mathcal X ,\mathcal Z^{(j)})$