机器学习笔记之变分推断——基于平均场假设变分推断与广义EM
引言
上一节介绍了基于平均场假设 的变分推断推导过程。本节将介绍平均场假设变分推断与广义EM之间的联系。
回顾:基于平均场假设的变分推断
首先,平均场理论(Mean Theory)是一个物理学的概念,将隐变量在概率图中的状态变量 划分成 M \mathcal M M个组,将整个关于 隐变量的概率分布看作 M \mathcal M M个独立的子概率分布。数学符号表示如下:
Q ( Z ) = ∏ i = 1 M Q i ( Z ( i ) ) = Q 1 ( Z ( 1 ) ) ⋅ Q 2 ( Z ( 2 ) ) ⋯ Q M ( Z ( M ) ) \begin{aligned} \mathcal Q(\mathcal Z) & = \prod_{i=1}^{\mathcal M} \mathcal Q_i(\mathcal Z^{(i)}) \\ & = \mathcal Q_1(\mathcal Z^{(1)}) \cdot \mathcal Q_2(\mathcal Z^{(2)}) \cdots \mathcal Q_{\mathcal M}(\mathcal Z^{(\mathcal M)}) \end{aligned} Q(Z)=i=1∏MQi(Z(i))=Q1(Z(1))⋅Q2(Z(2))⋯QM(Z(M))
由于平均场假设, Q ( Z ) \mathcal Q(\mathcal Z) Q(Z)内部各子概率分布 Q i ( Z ( i ) ) \mathcal Q_{i}(\mathcal Z^{(i)}) Qi(Z(i))之间相互独立,因此,在求解 任一子概率分布 Q j ( Z ( j ) ) ( j ∈ { 1 , 2 , ⋯ , M } ) \mathcal Q_j(\mathcal Z^{(j)})(j \in \{1,2,\cdots,\mathcal M\}) Qj(Z(j))(j∈{
1,2,⋯,M}) 过程中,可以通过固定剩余的 M − 1 \mathcal M - 1 M−1项进行求解。令:
注意:由于只将
Z ( j ) \mathcal Z^{(j)} Z(j)看作变量,因此该期望基于的分布
∏ i ≠ j M Q i ( Z ( i ) ) \prod_{i \neq j}^{\mathcal M} \mathcal Q_i(\mathcal Z^{(i)}) ∏i=jMQi(Z(i))是已知分布。同理,隐变量
Z = ( Z ( 1 ) , Z ( 2 ) , ⋯ , Z ( M ) ) \mathcal Z = (\mathcal Z^{(1)},\mathcal Z^{(2)},\cdots,\mathcal Z^{(\mathcal M)}) Z=(Z(1),Z(2),⋯,Z(M))中只有
Z ( j ) \mathcal Z^{(j)} Z(j)是变量,其余均是常数。因此,将该期望视作关于
X , Z ( j ) \mathcal X,\mathcal Z^{(j)} X,Z(j)的函数。
E ∏ i ≠ j M Q i ( Z ( i ) ) [ log P ( X , Z ) ] = log ϕ ^ ( X , Z ( j ) ) \mathbb E_{\prod_{i \neq j}^{\mathcal M} \mathcal Q_i(\mathcal Z^{(i)})} \left[ \log P(\mathcal X,\mathcal Z)\right] = \log \hat \phi (\mathcal X ,\mathcal Z^{(j)}) E∏i=jMQi(Z(i))[logP(X,Z)]=logϕ^(X,Z(j))
从而求解最优 Q j ^ ( Z ( j ) ) \hat {\mathcal Q_j}(\mathcal Z^{(j)}) Qj^(Z(j))的值:
Q j ^ ( Z ( j ) ) = arg