(《机器学习》完整版系列)第14章 概率图模型——14.9 变分推断的详细推导(找一个“数学性质好的分布”来近似代替)

假定 p ( z   ∣   x ) p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}}) p(zx)复杂(可能不好计算出来),因此,我们不直接找它,而是找一个“数学性质好的分布” q ( z ) q(\boldsymbol{\mathrm{z}}) q(z)来近似代替它。
推导近似分布 q ( z ) q(\boldsymbol{\mathrm{z}}) q(z)的理论基础需要用到变分法时,称为变分推断。

变分推断的详细推导

现在的任务是:已知 p ( x , z ) p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}}) p(x,z)(或其等价形式,如,贝叶斯网络)及“其它条件”(即能找到如下的 q ( z ) q(\boldsymbol{\mathrm{z}}) q(z)),求分布 p ( z   ∣   x ) p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}}) p(zx)

假定 p ( z   ∣   x ) p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}}) p(zx)复杂(可能不好计算出来),因此,我们不直接找它,而是找一个“数学性质好的分布” q ( z ) q(\boldsymbol{\mathrm{z}}) q(z)来近似代替它,集中精力求 q ( z ) q(\boldsymbol{\mathrm{z}}) q(z),实现 p ( z   ∣   x ) p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}}) p(zx)的近似推断(即 p ( z   ∣   x ) ≈ q ( z ) p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}})\approx q(\boldsymbol{\mathrm{z}}) p(zx)q(z))。

“数学性质好的分布”的特点:

一是可分解:
q ( z ) = ∏ i = 1 M q i ( z i ) \begin{align} q(\boldsymbol{\mathrm{z}})=\prod_{i=1}^Mq_i(z_i) \tag{14.72} \end{align} q(z)=i=1Mqi(zi)(14.72)

二是好计算:指 E z − j ln ⁡   p ( x , z ) \mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}}) zjElnp(x,z)能方便地表达为关于 p ( x , z ) p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}}) p(x,z)的闭式解。

先理解变分法概念:对于求目标函数 f ( x ) f(x) f(x)的最大值,若 f ( x ) f(x) f(x)比较复杂,可以用另一个简单的函数簇 g ( x , λ ) g(x,\lambda ) g(x,λ)(引入一个参数 λ \lambda λ)作为 f ( x ) f(x) f(x)的下界,并对于任意的 x x x,存在 λ \lambda λ的某个值使得界是“紧的”,例如, f ( x ) = − ln ⁡ ( x ) , g ( x , λ ) = − λ x + ln ⁡ ( λ ) + 1 f(x)=-\ln(x),g(x,\lambda )=-\lambda x+\ln(\lambda )+1 f(x)=ln(x),g(x,λ)=λx+ln(λ)+1,其中, g ( x , λ ) g(x,\lambda ) g(x,λ)是关于变量 x x x的线性函数,并可以证明它是 f ( x ) f(x) f(x)的下界且关于某个 λ \lambda λ是紧的。
有了目标函数的下界函数簇后,最大化目标函数 f ( x ) f(x) f(x)可转化为最大化函数簇 g ( x , λ ) g(x,\lambda ) g(x,λ)。 形象地想象: g ( x , λ ) g(x,\lambda ) g(x,λ) λ \lambda λ变化而形成一个托盘,托盘作为函数 f ( x ) f(x) f(x)的下界,它托着函数 f ( x ) f(x) f(x),要最大化 f ( x ) f(x) f(x),只需尽可能地举高托盘。

下面推导出近似分布 q ( z ) q(\boldsymbol{\mathrm{z}}) q(z),由于其理论基础需要用到变分法,故这类方法称为变分推断。

ln ⁡   p ( x ) = ln ⁡   p ( x ) ∫ z q ( z )   d z = ∫ z q ( z ) ln ⁡   p ( x )   d z = ∫ z q ( z ) ln ⁡   p ( z , x ) p ( z   ∣   x )   d z = ∫ z q ( z ) ln ⁡   ( p ( z , x ) q ( z ) × q ( z ) p ( z   ∣   x ) )   d z = ∫ z q ( z ) ln ⁡   p ( z , x ) q ( z )   d z − ∫ z q ( z ) ln ⁡   p ( z   ∣   x ) q ( z )   d z = L ( q ) + K L ( q ∣ ∣ p ) ⩾ L ( q ) \begin{align} & \ln\,p(\boldsymbol{\mathrm{x}})\notag \\ = & \ln\,p(\boldsymbol{\mathrm{x}})\int_{\boldsymbol{\mathrm{z}}} q(\boldsymbol{\mathrm{z}}) \,\mathrm{d}\boldsymbol{\mathrm{z}} \notag \\ = & \int_{\boldsymbol{\mathrm{z}}} q(\boldsymbol{\mathrm{z}})\ln\,p(\boldsymbol{\mathrm{x}}) \,\mathrm{d}\boldsymbol{\mathrm{z}} \notag \\ = & \int_{\boldsymbol{\mathrm{z}}} q(\boldsymbol{\mathrm{z}})\ln\,\frac{p(\boldsymbol{\mathrm{z}},\boldsymbol{\mathrm{x}})}{p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}})} \,\mathrm{d}\boldsymbol{\mathrm{z}} \notag \\ = & \int_{\boldsymbol{\mathrm{z}}} q(\boldsymbol{\mathrm{z}})\ln\,\left(\frac{p(\boldsymbol{\mathrm{z}},\boldsymbol{\mathrm{x}})}{q(\boldsymbol{\mathrm{z}})}\times \frac{q(\boldsymbol{\mathrm{z}})}{p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}})}\right)\,\mathrm{d}\boldsymbol{\mathrm{z}} \notag \\ = & \int_{\boldsymbol{\mathrm{z}}} q(\boldsymbol{\mathrm{z}})\ln\,\frac{p(\boldsymbol{\mathrm{z}},\boldsymbol{\mathrm{x}})}{q(\boldsymbol{\mathrm{z}})}\,\mathrm{d}\boldsymbol{\mathrm{z}}-\int_{\boldsymbol{\mathrm{z}}} q(\boldsymbol{\mathrm{z}})\ln\, \frac{p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}})}{q(\boldsymbol{\mathrm{z}})}\,\mathrm{d}\boldsymbol{\mathrm{z}} \notag \\ = & \mathcal{L} (q)+\mathrm{KL}(q||p)\tag{14.73} \\ \geqslant & \mathcal{L} (q)\tag{14.74} \end{align} ======lnp(x)lnp(x)zq(z)dzzq(z)lnp(x)dzzq(z)lnp(zx)p(z,x)dzzq(z)ln(q(z)p(z,x)×p(zx)q(z))dzzq(z)lnq(z)p(z,x)dzzq(z)lnq(z)p(zx)dzL(q)+KL(q∣∣p)L(q)(14.73)(14.74)
其中,当 p ( z   ∣   x ) = q ( z ) p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}})=q(\boldsymbol{\mathrm{z}}) p(zx)=q(z)时取等号。

式(14.73)即【西瓜书式(14.32)】,其中,由【西瓜书式(14.33)(14.34)】引入记号 L ( q ) \mathcal{L} (q) L(q) K L ( q ∣ ∣ p ) \mathrm{KL}(q||p) KL(q∣∣p),后者称为KL散度,它具有非负性【西瓜书附录式(C.35)】。 L ( q ) \mathcal{L} (q) L(q)中含有变量 p p p,并引入了新的变量 q q q,式(14.74)说明 L ( q ) \mathcal{L} (q) L(q)为对数似然函数 ln ⁡   p ( x ) \ln\,p(\boldsymbol{\mathrm{x}}) lnp(x)的变分下界,由变分法原理知,最大化对数似然这时可转化为最大化 L ( q ) \mathcal{L} (q) L(q)

注:这里的变量 p p p q q q均为函数,故 L ( q ) \mathcal{L} (q) L(q)为泛函 g [ p , g ] g[p,g] g[p,g]

为使 L ( q ) \mathcal{L} (q) L(q)简单,考察局部 q j ( z j ) q_j(z_j) qj(zj),特将 z j z_j zj z \boldsymbol{\mathrm{z}} z中分离出来,设 z = { z j } ∪ z − j \boldsymbol{\mathrm{z}}=\{z_j\}\cup\boldsymbol{\mathrm{z}}_{-j} z={zj}zj,则式(14.72)变为
q ( z ) = q j ( z j ) ∏ i ≠ j M q i ( z i ) = q j ( z j ) q − j ( z − j ) (引入记号简记) \begin{align} q(\boldsymbol{\mathrm{z}}) & =q_j(z_j)\prod_{i\neq j}^Mq_i(z_i)\notag \\ & =q_j(z_j)q_{{-j}}(\boldsymbol{\mathrm{z}}_{{-j}})\quad \text{(引入记号简记)} \tag{14.75} \end{align} q(z)=qj(zj)i=jMqi(zi)=qj(zj)qj(zj)(引入记号简记)(14.75)
由概率性质有
{ ∫ z q ( z )   d z = 1 ∫ z − j q − j ( z − j )   d z − j = 1 ∫ z j q j ( z j )   d z j = 1 \begin{align} \begin{cases} \int_{\boldsymbol{\mathrm{z}}}q(\boldsymbol{\mathrm{z}}) \,\mathrm{d}\boldsymbol{\mathrm{z}} =1 \\ \int_{\boldsymbol{\mathrm{z}}_{-j}}q_{{-j}}(\boldsymbol{\mathrm{z}}_{-j}) \,\mathrm{d}\boldsymbol{\mathrm{z}}_{-j} =1 \\ \int_{z_j}q_j(z_j) \,\mathrm{d}z_j =1 \\ \end{cases} \tag{14.76} \end{align} zq(z)dz=1zjqj(zj)dzj=1zjqj(zj)dzj=1(14.76)


E z − j ln ⁡   p ( x , z ) = ∫ z − j q − j ( z − j ) ln ⁡   p ( x , z )   d z − j \begin{align} \mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}}) =\int_{\boldsymbol{\mathrm{z}}_{-j}} q_{-j}(\boldsymbol{\mathrm{z}}_{-j}) \ln\, p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})\,\mathrm{d}\boldsymbol{\mathrm{z}}_{-j} \tag{14.77} \end{align} zjElnp(x,z)=zjqj(zj)lnp(x,z)dzj(14.77)
∫ z q ( z ) ln ⁡   p ( x , z )   d z = ∫ z j q j ( z j ) ( ∫ z − j q − j ( z − j ) ln ⁡   p ( x , z )   d z − j )   d z j (由式(14.75)) = ∫ z j q j ( z j ) ( E z − j ln ⁡   p ( x , z ) )   d z j (由式(14.77)) \begin{align} \int_{\boldsymbol{\mathrm{z}}}q(\boldsymbol{\mathrm{z}}) \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}}) \,\mathrm{d}\boldsymbol{\mathrm{z}} & =\int_{z_j}q_j(z_j) \left(\int_{\boldsymbol{\mathrm{z}}_{-j}}q_{-j}(\boldsymbol{\mathrm{z}}_{-j}) \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}}) \,\mathrm{d}\boldsymbol{\mathrm{z}}_{-j}\right)\,\mathrm{d}z_j \quad \text{(由式(14.75))}\notag \\ & =\int_{z_j}q_j(z_j) \left(\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})\right)\,\mathrm{d}z_j \quad \text{(由式(14.77))} \tag{14.78} \end{align} zq(z)lnp(x,z)dz=zjqj(zj)(zjqj(zj)lnp(x,z)dzj)dzj(由式(14.75)=zjqj(zj)(zjElnp(x,z))dzj(由式(14.77)(14.78)

∫ z q ( z ) ln ⁡   q ( z )   d z = ∫ z q j ( z j ) q − j ( z − j ) ( ln ⁡   q j ( z j ) + ln ⁡   q − j ( z − j ) )   d z = ∫ z q j ( z j ) q − j ( z − j ) ln ⁡   q j ( z j )   d z + ∫ z q j ( z j ) q − j ( z − j ) ln ⁡   q − j ( z − j )   d z = ∫ z − j q − j ( z − j )   d z − j ∫ z j q j ( z j ) ln ⁡   q j ( z j )   d z j + ∫ z − j q − j ( z − j ) ln ⁡   q − j ( z − j )   d z − j ∫ z j q j ( z j )   d z j = ∫ z j q j ( z j ) ln ⁡   q j ( z j )   d z j + ∫ z − j q − j ( z − j ) ln ⁡   q − j ( z − j )   d z − j (由式(14.76)) = ∫ z j q j ( z j ) ln ⁡   q j ( z j )   d z j + c o n s t (与 z j 无关的项) \begin{align} & \quad \int_{\boldsymbol{\mathrm{z}} } q(\boldsymbol{\mathrm{z}}) \ln\,q(\boldsymbol{\mathrm{z}}) \,\mathrm{d}\boldsymbol{\mathrm{z}} \notag \\ & =\int_{\boldsymbol{\mathrm{z}} } q_j(z_j)q_{-j}(\boldsymbol{\mathrm{z}}_{-j}) (\ln\,q_j(z_j)+\ln\,q_{-j}(\boldsymbol{\mathrm{z}}_{-j})) \,\mathrm{d}\boldsymbol{\mathrm{z}} \notag \\ & =\int_{\boldsymbol{\mathrm{z}} } q_j(z_j)q_{-j}(\boldsymbol{\mathrm{z}}_{-j}) \ln\,q_j(z_j)\,\mathrm{d}\boldsymbol{\mathrm{z}}+\int_{\boldsymbol{\mathrm{z}} }q_j(z_j)q_{-j}(\boldsymbol{\mathrm{z}}_{-j})\ln\,q_{-j}(\boldsymbol{\mathrm{z}}_{-j}) \,\mathrm{d}\boldsymbol{\mathrm{z}} \notag \\ & =\int_{\boldsymbol{\mathrm{z}}_{-j} } q_{-j}(\boldsymbol{\mathrm{z}}_{-j})\,\mathrm{d}\boldsymbol{\mathrm{z}}_{-j}\int_{z_j}q_j(z_j)\ln\,q_j(z_j)\,\mathrm{d}z_j \notag \\ & \quad \quad +\int_{\boldsymbol{\mathrm{z}}_{-j} } q_{-j}(\boldsymbol{\mathrm{z}}_{-j})\ln\,q_{-j}(\boldsymbol{\mathrm{z}}_{-j})\,\mathrm{d}\boldsymbol{\mathrm{z}}_{-j}\int_{z_j}q_j(z_j)\,\mathrm{d}z_j \notag \\ & =\int_{z_j}q_j(z_j)\ln\,q_j(z_j)\,\mathrm{d}z_j +\int_{\boldsymbol{\mathrm{z}}_{-j} } q_{-j}(\boldsymbol{\mathrm{z}}_{-j})\ln\,q_{-j}(\boldsymbol{\mathrm{z}}_{-j})\,\mathrm{d}\boldsymbol{\mathrm{z}}_{-j}\quad \text{(由式(14.76))}\notag \\ & =\int_{z_j}q_j(z_j)\ln\,q_j(z_j)\,\mathrm{d}z_j +\mathrm{const}\text{(与$z_j$无关的项)} \tag{14.79} \end{align} zq(z)lnq(z)dz=zqj(zj)qj(zj)(lnqj(zj)+lnqj(zj))dz=zqj(zj)qj(zj)lnqj(zj)dz+zqj(zj)qj(zj)lnqj(zj)dz=zjqj(zj)dzjzjqj(zj)lnqj(zj)dzj+zjqj(zj)lnqj(zj)dzjzjqj(zj)dzj=zjqj(zj)lnqj(zj)dzj+zjqj(zj)lnqj(zj)dzj(由式(14.76)=zjqj(zj)lnqj(zj)dzj+const(与zj无关的项)(14.79)
L ( q ) = ∫ z q ( z ) ln ⁡   p ( x , z )   d z − ∫ z q ( z ) ln ⁡   q ( z )   d z = ∫ z j q j ( z j ) ( E z − j ln ⁡   p ( x , z ) )   d z j − ∫ z j q j ( z j ) ln ⁡   q j ( z j )   d z j + c o n s t (由式(14.77)、式(14.79)) = ∫ z j q j ( z j ) [ ( E z − j ln ⁡   p ( x , z ) ) + c o n s t ]   d z j − ∫ z j q j ( z j ) ln ⁡   q j ( z j )   d z j \begin{align} & \quad \mathcal{L} (q)\notag \\ & =\int_{\boldsymbol{\mathrm{z}}}q(\boldsymbol{\mathrm{z}}) \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}}) \,\mathrm{d}\boldsymbol{\mathrm{z}}- \int_{\boldsymbol{\mathrm{z}} } q(\boldsymbol{\mathrm{z}}) \ln\,q(\boldsymbol{\mathrm{z}}) \,\mathrm{d}\boldsymbol{\mathrm{z}} \notag \\ & =\int_{z_j}q_j(z_j) \left(\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})\right)\,\mathrm{d}z_j-\int_{z_j}q_j(z_j)\ln\,q_j(z_j)\,\mathrm{d}z_j \notag \\ & \quad \quad +\mathrm{const} \quad \text{(由式(14.77)、式(14.79))}\notag \\ & =\int_{z_j}q_j(z_j) \left[ \left(\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})\right)+\mathrm{const}\right]\,\mathrm{d}z_j-\int_{z_j}q_j(z_j)\ln\,q_j(z_j)\,\mathrm{d}z_j \tag{14.80} \end{align} L(q)=zq(z)lnp(x,z)dzzq(z)lnq(z)dz=zjqj(zj)(zjElnp(x,z))dzjzjqj(zj)lnqj(zj)dzj+const(由式(14.77)、式(14.79)=zjqj(zj)[(zjElnp(x,z))+const]dzjzjqj(zj)lnqj(zj)dzj(14.80)
E \mathop{\mathbb{E}} E的消元作用知,式(14.80)中 [ E z − j ⋅ ] [\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \cdot] [zjE]为变元 x , z j \boldsymbol{\mathrm{x}},z_j x,zj的函数(消去了 z − j \boldsymbol{\mathrm{z}}_{-j} zj),故可令
ln ⁡ p ~ ( x , z j ) = ( E z − j ln ⁡   p ( x , z ) ) + c o n s t \begin{align} \ln \tilde{p}(\boldsymbol{\mathrm{x}},z_j) = \left(\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})\right)+\mathrm{const} \tag{14.81} \end{align} lnp~(x,zj)=(zjElnp(x,z))+const(14.81)
这里引入一个新的函数,函数符可以任意取,因它与 p p p有一定的关系,故对应 p ~ \tilde{p} p~,加 ln ⁡ \ln ln是为了便于计算。

将式(14.81)代入式(14.80)有
L ( q ) = ∫ z j q j ( z j ) ( ln ⁡   p ~ ( x , z j ) − ln ⁡   q j ( z j ) )   d z j = ∫ z j q j ( z j ) ln ⁡   p ~ ( x , z j ) ln ⁡   q j ( z j )   d z j = − K L ( q j ( z j ) ∣ ∣ p ~ ( x , z j ) ) \begin{align} \mathcal{L} (q) & =\int_{z_j}q_j(z_j) (\ln\,\tilde{p}(\boldsymbol{\mathrm{x}},z_j)-\ln\,q_j(z_j))\,\mathrm{d}z_j \notag \\ & =\int_{z_j}q_j(z_j) \ln\,\frac{\tilde{p}(\boldsymbol{\mathrm{x}},z_j)}{\ln\,q_j(z_j)}\,\mathrm{d}z_j \notag \\ & =-\mathrm{KL}(q_j(z_j)||\tilde{p}(\boldsymbol{\mathrm{x}},z_j)) \tag{14.82} \end{align} L(q)=zjqj(zj)(lnp~(x,zj)lnqj(zj))dzj=zjqj(zj)lnlnqj(zj)p~(x,zj)dzj=KL(qj(zj)∣∣p~(x,zj))(14.82)

由式(14.82)
q j ∗ ( z j ) = arg ⁡ max ⁡ q j ( z j ) L ( q ) = arg ⁡ max ⁡ q j ( z j ) ( − K L ( q j ( z j ) ∣ ∣ p ~ ( x , z j ) ) + c o n s t ) = arg ⁡ min ⁡ q j ( z j ) K L ( q j ( z j ) ∣ ∣ p ~ ( x , z j ) ) = p ~ ( x , z j ) (由【西瓜书附录(C.35)】取最小点) = e x p ( E z − j ln ⁡   p ( x , z ) + c o n s t ) (由式(14.81)) ∝ e x p ( E z − j ln ⁡   p ( x , z ) ) \begin{align} q_j^*(z_j) & =\mathop{\arg\max}\limits_{q_j(z_j)}\mathcal{L} (q)\notag \\ & =\mathop{\arg\max}\limits_{q_j(z_j)}(-\mathrm{KL}(q_j(z_j)||\tilde{p}(\boldsymbol{\mathrm{x}},z_j))+\mathrm{const})\notag \\ & =\mathop{\arg\min}\limits_{q_j(z_j)}\mathrm{KL}(q_j(z_j)||\tilde{p}(\boldsymbol{\mathrm{x}},z_j))\notag \\ & =\tilde{p}(\boldsymbol{\mathrm{x}},z_j)\quad \text{(由【西瓜书附录(C.35)】取最小点)}\notag \\ & =\mathrm{exp}(\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})+\mathrm{const})\quad \text{(由式(14.81))}\notag \\ & \propto \mathrm{exp}(\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})) \tag{14.83} \end{align} qj(zj)=qj(zj)argmaxL(q)=qj(zj)argmax(KL(qj(zj)∣∣p~(x,zj))+const)=qj(zj)argminKL(qj(zj)∣∣p~(x,zj))=p~(x,zj)(由【西瓜书附录(C.35)】取最小点)=exp(zjElnp(x,z)+const)(由式(14.81)exp(zjElnp(x,z))(14.83)
概率化
q j ∗ ( z j ) = e x p ( E z − j ln ⁡   p ( x , z ) ) ∫ z j e x p ( E z − j ln ⁡   p ( x , z ) )   d z j \begin{align} q_j^*(z_j) & =\frac{\mathrm{exp}(\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}}))} {\int_{z_j}\mathrm{exp}(\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})) \,\mathrm{d}z_j } \tag{14.84} \end{align} qj(zj)=zjexp(zjElnp(x,z))dzjexp(zjElnp(x,z))(14.84)
式(14.84)【西瓜书式(14.40)】即为满足可分解条件下的使 L ( q ) \mathcal{L} (q) L(q)最大化的解。 求出所有 q j ∗ ( z j ) q_j^*(z_j) qj(zj)代入式(14.72)即得要求的 q ( z ) q(\boldsymbol{\mathrm{z}}) q(z)

注意到式(14.84)的两边都含有 q q q(右边是通过 E z − j \mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} zjE隐式地包含 q q q),实际上可将等式(14.84)变为递推式来求解:左边的 q q q变为 q t + 1 q^{t+1} qt+1,右边的 q q q变为 q t q^{t} qt
只要 E z − j ln ⁡   p ( x , z ) \mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}}) zjElnp(x,z)有关于 p ( x , z ) p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}}) p(x,z)的闭式解,即可用递推式方便地进行求解。

式(14.84)中为求 q j ∗ ( z j ) q_j^*(z_j) qj(zj),却要通过 E z − j ln ⁡   p ( x , z ) \mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}}) zjElnp(x,z)融合 z − j \boldsymbol{\mathrm{z}}_{-j} zj,因“期望”有“平均”的意思,故该方法亦称为“平均场”方法。

另外,式(14.84)是对 z \boldsymbol{\mathrm{z}} z中的任一个分量 z j z_j zj而推导的,事实上,将 z j z_j zj换成子集 z j \boldsymbol{\mathrm{z}}_{j} zj仍成立。

本文为原创,您可以:

  • 点赞(支持博主)
  • 收藏(待以后看)
  • 转发(他考研或学习,正需要)
  • 评论(或讨论)
  • 引用(支持原创)
  • 不侵权

上一篇:14.8 再谈吉布斯采样(将“多变量”联合采样变为交替地“单变量”采样)
下一篇:14.10 变分推断用于EM算法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值