假定
p
(
z
∣
x
)
p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}})
p(z∣x)复杂(可能不好计算出来),因此,我们不直接找它,而是找一个“数学性质好的分布”
q
(
z
)
q(\boldsymbol{\mathrm{z}})
q(z)来近似代替它。
推导近似分布
q
(
z
)
q(\boldsymbol{\mathrm{z}})
q(z)的理论基础需要用到变分法时,称为变分推断。
变分推断的详细推导
现在的任务是:已知 p ( x , z ) p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}}) p(x,z)(或其等价形式,如,贝叶斯网络)及“其它条件”(即能找到如下的 q ( z ) q(\boldsymbol{\mathrm{z}}) q(z)),求分布 p ( z ∣ x ) p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}}) p(z∣x)。
假定 p ( z ∣ x ) p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}}) p(z∣x)复杂(可能不好计算出来),因此,我们不直接找它,而是找一个“数学性质好的分布” q ( z ) q(\boldsymbol{\mathrm{z}}) q(z)来近似代替它,集中精力求 q ( z ) q(\boldsymbol{\mathrm{z}}) q(z),实现 p ( z ∣ x ) p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}}) p(z∣x)的近似推断(即 p ( z ∣ x ) ≈ q ( z ) p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}})\approx q(\boldsymbol{\mathrm{z}}) p(z∣x)≈q(z))。
“数学性质好的分布”的特点:
一是可分解:
q
(
z
)
=
∏
i
=
1
M
q
i
(
z
i
)
\begin{align} q(\boldsymbol{\mathrm{z}})=\prod_{i=1}^Mq_i(z_i) \tag{14.72} \end{align}
q(z)=i=1∏Mqi(zi)(14.72)
二是好计算:指 E z − j ln p ( x , z ) \mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}}) z−jElnp(x,z)能方便地表达为关于 p ( x , z ) p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}}) p(x,z)的闭式解。
先理解变分法概念:对于求目标函数
f
(
x
)
f(x)
f(x)的最大值,若
f
(
x
)
f(x)
f(x)比较复杂,可以用另一个简单的函数簇
g
(
x
,
λ
)
g(x,\lambda )
g(x,λ)(引入一个参数
λ
\lambda
λ)作为
f
(
x
)
f(x)
f(x)的下界,并对于任意的
x
x
x,存在
λ
\lambda
λ的某个值使得界是“紧的”,例如,
f
(
x
)
=
−
ln
(
x
)
,
g
(
x
,
λ
)
=
−
λ
x
+
ln
(
λ
)
+
1
f(x)=-\ln(x),g(x,\lambda )=-\lambda x+\ln(\lambda )+1
f(x)=−ln(x),g(x,λ)=−λx+ln(λ)+1,其中,
g
(
x
,
λ
)
g(x,\lambda )
g(x,λ)是关于变量
x
x
x的线性函数,并可以证明它是
f
(
x
)
f(x)
f(x)的下界且关于某个
λ
\lambda
λ是紧的。
有了目标函数的下界函数簇后,最大化目标函数
f
(
x
)
f(x)
f(x)可转化为最大化函数簇
g
(
x
,
λ
)
g(x,\lambda )
g(x,λ)。 形象地想象:
g
(
x
,
λ
)
g(x,\lambda )
g(x,λ)因
λ
\lambda
λ变化而形成一个托盘,托盘作为函数
f
(
x
)
f(x)
f(x)的下界,它托着函数
f
(
x
)
f(x)
f(x),要最大化
f
(
x
)
f(x)
f(x),只需尽可能地举高托盘。
下面推导出近似分布 q ( z ) q(\boldsymbol{\mathrm{z}}) q(z),由于其理论基础需要用到变分法,故这类方法称为变分推断。
ln
p
(
x
)
=
ln
p
(
x
)
∫
z
q
(
z
)
d
z
=
∫
z
q
(
z
)
ln
p
(
x
)
d
z
=
∫
z
q
(
z
)
ln
p
(
z
,
x
)
p
(
z
∣
x
)
d
z
=
∫
z
q
(
z
)
ln
(
p
(
z
,
x
)
q
(
z
)
×
q
(
z
)
p
(
z
∣
x
)
)
d
z
=
∫
z
q
(
z
)
ln
p
(
z
,
x
)
q
(
z
)
d
z
−
∫
z
q
(
z
)
ln
p
(
z
∣
x
)
q
(
z
)
d
z
=
L
(
q
)
+
K
L
(
q
∣
∣
p
)
⩾
L
(
q
)
\begin{align} & \ln\,p(\boldsymbol{\mathrm{x}})\notag \\ = & \ln\,p(\boldsymbol{\mathrm{x}})\int_{\boldsymbol{\mathrm{z}}} q(\boldsymbol{\mathrm{z}}) \,\mathrm{d}\boldsymbol{\mathrm{z}} \notag \\ = & \int_{\boldsymbol{\mathrm{z}}} q(\boldsymbol{\mathrm{z}})\ln\,p(\boldsymbol{\mathrm{x}}) \,\mathrm{d}\boldsymbol{\mathrm{z}} \notag \\ = & \int_{\boldsymbol{\mathrm{z}}} q(\boldsymbol{\mathrm{z}})\ln\,\frac{p(\boldsymbol{\mathrm{z}},\boldsymbol{\mathrm{x}})}{p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}})} \,\mathrm{d}\boldsymbol{\mathrm{z}} \notag \\ = & \int_{\boldsymbol{\mathrm{z}}} q(\boldsymbol{\mathrm{z}})\ln\,\left(\frac{p(\boldsymbol{\mathrm{z}},\boldsymbol{\mathrm{x}})}{q(\boldsymbol{\mathrm{z}})}\times \frac{q(\boldsymbol{\mathrm{z}})}{p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}})}\right)\,\mathrm{d}\boldsymbol{\mathrm{z}} \notag \\ = & \int_{\boldsymbol{\mathrm{z}}} q(\boldsymbol{\mathrm{z}})\ln\,\frac{p(\boldsymbol{\mathrm{z}},\boldsymbol{\mathrm{x}})}{q(\boldsymbol{\mathrm{z}})}\,\mathrm{d}\boldsymbol{\mathrm{z}}-\int_{\boldsymbol{\mathrm{z}}} q(\boldsymbol{\mathrm{z}})\ln\, \frac{p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}})}{q(\boldsymbol{\mathrm{z}})}\,\mathrm{d}\boldsymbol{\mathrm{z}} \notag \\ = & \mathcal{L} (q)+\mathrm{KL}(q||p)\tag{14.73} \\ \geqslant & \mathcal{L} (q)\tag{14.74} \end{align}
======⩾lnp(x)lnp(x)∫zq(z)dz∫zq(z)lnp(x)dz∫zq(z)lnp(z∣x)p(z,x)dz∫zq(z)ln(q(z)p(z,x)×p(z∣x)q(z))dz∫zq(z)lnq(z)p(z,x)dz−∫zq(z)lnq(z)p(z∣x)dzL(q)+KL(q∣∣p)L(q)(14.73)(14.74)
其中,当
p
(
z
∣
x
)
=
q
(
z
)
p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}})=q(\boldsymbol{\mathrm{z}})
p(z∣x)=q(z)时取等号。
式(14.73)即【西瓜书式(14.32)】,其中,由【西瓜书式(14.33)(14.34)】引入记号 L ( q ) \mathcal{L} (q) L(q)与 K L ( q ∣ ∣ p ) \mathrm{KL}(q||p) KL(q∣∣p),后者称为KL散度,它具有非负性【西瓜书附录式(C.35)】。 L ( q ) \mathcal{L} (q) L(q)中含有变量 p p p,并引入了新的变量 q q q,式(14.74)说明 L ( q ) \mathcal{L} (q) L(q)为对数似然函数 ln p ( x ) \ln\,p(\boldsymbol{\mathrm{x}}) lnp(x)的变分下界,由变分法原理知,最大化对数似然这时可转化为最大化 L ( q ) \mathcal{L} (q) L(q)。
注:这里的变量 p p p和 q q q均为函数,故 L ( q ) \mathcal{L} (q) L(q)为泛函 g [ p , g ] g[p,g] g[p,g]。
为使
L
(
q
)
\mathcal{L} (q)
L(q)简单,考察局部
q
j
(
z
j
)
q_j(z_j)
qj(zj),特将
z
j
z_j
zj从
z
\boldsymbol{\mathrm{z}}
z中分离出来,设
z
=
{
z
j
}
∪
z
−
j
\boldsymbol{\mathrm{z}}=\{z_j\}\cup\boldsymbol{\mathrm{z}}_{-j}
z={zj}∪z−j,则式(14.72)变为
q
(
z
)
=
q
j
(
z
j
)
∏
i
≠
j
M
q
i
(
z
i
)
=
q
j
(
z
j
)
q
−
j
(
z
−
j
)
(引入记号简记)
\begin{align} q(\boldsymbol{\mathrm{z}}) & =q_j(z_j)\prod_{i\neq j}^Mq_i(z_i)\notag \\ & =q_j(z_j)q_{{-j}}(\boldsymbol{\mathrm{z}}_{{-j}})\quad \text{(引入记号简记)} \tag{14.75} \end{align}
q(z)=qj(zj)i=j∏Mqi(zi)=qj(zj)q−j(z−j)(引入记号简记)(14.75)
由概率性质有
{
∫
z
q
(
z
)
d
z
=
1
∫
z
−
j
q
−
j
(
z
−
j
)
d
z
−
j
=
1
∫
z
j
q
j
(
z
j
)
d
z
j
=
1
\begin{align} \begin{cases} \int_{\boldsymbol{\mathrm{z}}}q(\boldsymbol{\mathrm{z}}) \,\mathrm{d}\boldsymbol{\mathrm{z}} =1 \\ \int_{\boldsymbol{\mathrm{z}}_{-j}}q_{{-j}}(\boldsymbol{\mathrm{z}}_{-j}) \,\mathrm{d}\boldsymbol{\mathrm{z}}_{-j} =1 \\ \int_{z_j}q_j(z_j) \,\mathrm{d}z_j =1 \\ \end{cases} \tag{14.76} \end{align}
⎩
⎨
⎧∫zq(z)dz=1∫z−jq−j(z−j)dz−j=1∫zjqj(zj)dzj=1(14.76)
又
E
z
−
j
ln
p
(
x
,
z
)
=
∫
z
−
j
q
−
j
(
z
−
j
)
ln
p
(
x
,
z
)
d
z
−
j
\begin{align} \mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}}) =\int_{\boldsymbol{\mathrm{z}}_{-j}} q_{-j}(\boldsymbol{\mathrm{z}}_{-j}) \ln\, p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})\,\mathrm{d}\boldsymbol{\mathrm{z}}_{-j} \tag{14.77} \end{align}
z−jElnp(x,z)=∫z−jq−j(z−j)lnp(x,z)dz−j(14.77)
∫
z
q
(
z
)
ln
p
(
x
,
z
)
d
z
=
∫
z
j
q
j
(
z
j
)
(
∫
z
−
j
q
−
j
(
z
−
j
)
ln
p
(
x
,
z
)
d
z
−
j
)
d
z
j
(由式(14.75))
=
∫
z
j
q
j
(
z
j
)
(
E
z
−
j
ln
p
(
x
,
z
)
)
d
z
j
(由式(14.77))
\begin{align} \int_{\boldsymbol{\mathrm{z}}}q(\boldsymbol{\mathrm{z}}) \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}}) \,\mathrm{d}\boldsymbol{\mathrm{z}} & =\int_{z_j}q_j(z_j) \left(\int_{\boldsymbol{\mathrm{z}}_{-j}}q_{-j}(\boldsymbol{\mathrm{z}}_{-j}) \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}}) \,\mathrm{d}\boldsymbol{\mathrm{z}}_{-j}\right)\,\mathrm{d}z_j \quad \text{(由式(14.75))}\notag \\ & =\int_{z_j}q_j(z_j) \left(\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})\right)\,\mathrm{d}z_j \quad \text{(由式(14.77))} \tag{14.78} \end{align}
∫zq(z)lnp(x,z)dz=∫zjqj(zj)(∫z−jq−j(z−j)lnp(x,z)dz−j)dzj(由式(14.75))=∫zjqj(zj)(z−jElnp(x,z))dzj(由式(14.77))(14.78)
又
∫
z
q
(
z
)
ln
q
(
z
)
d
z
=
∫
z
q
j
(
z
j
)
q
−
j
(
z
−
j
)
(
ln
q
j
(
z
j
)
+
ln
q
−
j
(
z
−
j
)
)
d
z
=
∫
z
q
j
(
z
j
)
q
−
j
(
z
−
j
)
ln
q
j
(
z
j
)
d
z
+
∫
z
q
j
(
z
j
)
q
−
j
(
z
−
j
)
ln
q
−
j
(
z
−
j
)
d
z
=
∫
z
−
j
q
−
j
(
z
−
j
)
d
z
−
j
∫
z
j
q
j
(
z
j
)
ln
q
j
(
z
j
)
d
z
j
+
∫
z
−
j
q
−
j
(
z
−
j
)
ln
q
−
j
(
z
−
j
)
d
z
−
j
∫
z
j
q
j
(
z
j
)
d
z
j
=
∫
z
j
q
j
(
z
j
)
ln
q
j
(
z
j
)
d
z
j
+
∫
z
−
j
q
−
j
(
z
−
j
)
ln
q
−
j
(
z
−
j
)
d
z
−
j
(由式(14.76))
=
∫
z
j
q
j
(
z
j
)
ln
q
j
(
z
j
)
d
z
j
+
c
o
n
s
t
(与
z
j
无关的项)
\begin{align} & \quad \int_{\boldsymbol{\mathrm{z}} } q(\boldsymbol{\mathrm{z}}) \ln\,q(\boldsymbol{\mathrm{z}}) \,\mathrm{d}\boldsymbol{\mathrm{z}} \notag \\ & =\int_{\boldsymbol{\mathrm{z}} } q_j(z_j)q_{-j}(\boldsymbol{\mathrm{z}}_{-j}) (\ln\,q_j(z_j)+\ln\,q_{-j}(\boldsymbol{\mathrm{z}}_{-j})) \,\mathrm{d}\boldsymbol{\mathrm{z}} \notag \\ & =\int_{\boldsymbol{\mathrm{z}} } q_j(z_j)q_{-j}(\boldsymbol{\mathrm{z}}_{-j}) \ln\,q_j(z_j)\,\mathrm{d}\boldsymbol{\mathrm{z}}+\int_{\boldsymbol{\mathrm{z}} }q_j(z_j)q_{-j}(\boldsymbol{\mathrm{z}}_{-j})\ln\,q_{-j}(\boldsymbol{\mathrm{z}}_{-j}) \,\mathrm{d}\boldsymbol{\mathrm{z}} \notag \\ & =\int_{\boldsymbol{\mathrm{z}}_{-j} } q_{-j}(\boldsymbol{\mathrm{z}}_{-j})\,\mathrm{d}\boldsymbol{\mathrm{z}}_{-j}\int_{z_j}q_j(z_j)\ln\,q_j(z_j)\,\mathrm{d}z_j \notag \\ & \quad \quad +\int_{\boldsymbol{\mathrm{z}}_{-j} } q_{-j}(\boldsymbol{\mathrm{z}}_{-j})\ln\,q_{-j}(\boldsymbol{\mathrm{z}}_{-j})\,\mathrm{d}\boldsymbol{\mathrm{z}}_{-j}\int_{z_j}q_j(z_j)\,\mathrm{d}z_j \notag \\ & =\int_{z_j}q_j(z_j)\ln\,q_j(z_j)\,\mathrm{d}z_j +\int_{\boldsymbol{\mathrm{z}}_{-j} } q_{-j}(\boldsymbol{\mathrm{z}}_{-j})\ln\,q_{-j}(\boldsymbol{\mathrm{z}}_{-j})\,\mathrm{d}\boldsymbol{\mathrm{z}}_{-j}\quad \text{(由式(14.76))}\notag \\ & =\int_{z_j}q_j(z_j)\ln\,q_j(z_j)\,\mathrm{d}z_j +\mathrm{const}\text{(与$z_j$无关的项)} \tag{14.79} \end{align}
∫zq(z)lnq(z)dz=∫zqj(zj)q−j(z−j)(lnqj(zj)+lnq−j(z−j))dz=∫zqj(zj)q−j(z−j)lnqj(zj)dz+∫zqj(zj)q−j(z−j)lnq−j(z−j)dz=∫z−jq−j(z−j)dz−j∫zjqj(zj)lnqj(zj)dzj+∫z−jq−j(z−j)lnq−j(z−j)dz−j∫zjqj(zj)dzj=∫zjqj(zj)lnqj(zj)dzj+∫z−jq−j(z−j)lnq−j(z−j)dz−j(由式(14.76))=∫zjqj(zj)lnqj(zj)dzj+const(与zj无关的项)(14.79)
L
(
q
)
=
∫
z
q
(
z
)
ln
p
(
x
,
z
)
d
z
−
∫
z
q
(
z
)
ln
q
(
z
)
d
z
=
∫
z
j
q
j
(
z
j
)
(
E
z
−
j
ln
p
(
x
,
z
)
)
d
z
j
−
∫
z
j
q
j
(
z
j
)
ln
q
j
(
z
j
)
d
z
j
+
c
o
n
s
t
(由式(14.77)、式(14.79))
=
∫
z
j
q
j
(
z
j
)
[
(
E
z
−
j
ln
p
(
x
,
z
)
)
+
c
o
n
s
t
]
d
z
j
−
∫
z
j
q
j
(
z
j
)
ln
q
j
(
z
j
)
d
z
j
\begin{align} & \quad \mathcal{L} (q)\notag \\ & =\int_{\boldsymbol{\mathrm{z}}}q(\boldsymbol{\mathrm{z}}) \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}}) \,\mathrm{d}\boldsymbol{\mathrm{z}}- \int_{\boldsymbol{\mathrm{z}} } q(\boldsymbol{\mathrm{z}}) \ln\,q(\boldsymbol{\mathrm{z}}) \,\mathrm{d}\boldsymbol{\mathrm{z}} \notag \\ & =\int_{z_j}q_j(z_j) \left(\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})\right)\,\mathrm{d}z_j-\int_{z_j}q_j(z_j)\ln\,q_j(z_j)\,\mathrm{d}z_j \notag \\ & \quad \quad +\mathrm{const} \quad \text{(由式(14.77)、式(14.79))}\notag \\ & =\int_{z_j}q_j(z_j) \left[ \left(\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})\right)+\mathrm{const}\right]\,\mathrm{d}z_j-\int_{z_j}q_j(z_j)\ln\,q_j(z_j)\,\mathrm{d}z_j \tag{14.80} \end{align}
L(q)=∫zq(z)lnp(x,z)dz−∫zq(z)lnq(z)dz=∫zjqj(zj)(z−jElnp(x,z))dzj−∫zjqj(zj)lnqj(zj)dzj+const(由式(14.77)、式(14.79))=∫zjqj(zj)[(z−jElnp(x,z))+const]dzj−∫zjqj(zj)lnqj(zj)dzj(14.80)
由
E
\mathop{\mathbb{E}}
E的消元作用知,式(14.80)中
[
E
z
−
j
⋅
]
[\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \cdot]
[z−jE⋅]为变元
x
,
z
j
\boldsymbol{\mathrm{x}},z_j
x,zj的函数(消去了
z
−
j
\boldsymbol{\mathrm{z}}_{-j}
z−j),故可令
ln
p
~
(
x
,
z
j
)
=
(
E
z
−
j
ln
p
(
x
,
z
)
)
+
c
o
n
s
t
\begin{align} \ln \tilde{p}(\boldsymbol{\mathrm{x}},z_j) = \left(\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})\right)+\mathrm{const} \tag{14.81} \end{align}
lnp~(x,zj)=(z−jElnp(x,z))+const(14.81)
这里引入一个新的函数,函数符可以任意取,因它与
p
p
p有一定的关系,故对应
p
~
\tilde{p}
p~,加
ln
\ln
ln是为了便于计算。
将式(14.81)代入式(14.80)有
L
(
q
)
=
∫
z
j
q
j
(
z
j
)
(
ln
p
~
(
x
,
z
j
)
−
ln
q
j
(
z
j
)
)
d
z
j
=
∫
z
j
q
j
(
z
j
)
ln
p
~
(
x
,
z
j
)
ln
q
j
(
z
j
)
d
z
j
=
−
K
L
(
q
j
(
z
j
)
∣
∣
p
~
(
x
,
z
j
)
)
\begin{align} \mathcal{L} (q) & =\int_{z_j}q_j(z_j) (\ln\,\tilde{p}(\boldsymbol{\mathrm{x}},z_j)-\ln\,q_j(z_j))\,\mathrm{d}z_j \notag \\ & =\int_{z_j}q_j(z_j) \ln\,\frac{\tilde{p}(\boldsymbol{\mathrm{x}},z_j)}{\ln\,q_j(z_j)}\,\mathrm{d}z_j \notag \\ & =-\mathrm{KL}(q_j(z_j)||\tilde{p}(\boldsymbol{\mathrm{x}},z_j)) \tag{14.82} \end{align}
L(q)=∫zjqj(zj)(lnp~(x,zj)−lnqj(zj))dzj=∫zjqj(zj)lnlnqj(zj)p~(x,zj)dzj=−KL(qj(zj)∣∣p~(x,zj))(14.82)
由式(14.82)
q
j
∗
(
z
j
)
=
arg
max
q
j
(
z
j
)
L
(
q
)
=
arg
max
q
j
(
z
j
)
(
−
K
L
(
q
j
(
z
j
)
∣
∣
p
~
(
x
,
z
j
)
)
+
c
o
n
s
t
)
=
arg
min
q
j
(
z
j
)
K
L
(
q
j
(
z
j
)
∣
∣
p
~
(
x
,
z
j
)
)
=
p
~
(
x
,
z
j
)
(由【西瓜书附录(C.35)】取最小点)
=
e
x
p
(
E
z
−
j
ln
p
(
x
,
z
)
+
c
o
n
s
t
)
(由式(14.81))
∝
e
x
p
(
E
z
−
j
ln
p
(
x
,
z
)
)
\begin{align} q_j^*(z_j) & =\mathop{\arg\max}\limits_{q_j(z_j)}\mathcal{L} (q)\notag \\ & =\mathop{\arg\max}\limits_{q_j(z_j)}(-\mathrm{KL}(q_j(z_j)||\tilde{p}(\boldsymbol{\mathrm{x}},z_j))+\mathrm{const})\notag \\ & =\mathop{\arg\min}\limits_{q_j(z_j)}\mathrm{KL}(q_j(z_j)||\tilde{p}(\boldsymbol{\mathrm{x}},z_j))\notag \\ & =\tilde{p}(\boldsymbol{\mathrm{x}},z_j)\quad \text{(由【西瓜书附录(C.35)】取最小点)}\notag \\ & =\mathrm{exp}(\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})+\mathrm{const})\quad \text{(由式(14.81))}\notag \\ & \propto \mathrm{exp}(\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})) \tag{14.83} \end{align}
qj∗(zj)=qj(zj)argmaxL(q)=qj(zj)argmax(−KL(qj(zj)∣∣p~(x,zj))+const)=qj(zj)argminKL(qj(zj)∣∣p~(x,zj))=p~(x,zj)(由【西瓜书附录(C.35)】取最小点)=exp(z−jElnp(x,z)+const)(由式(14.81))∝exp(z−jElnp(x,z))(14.83)
概率化
q
j
∗
(
z
j
)
=
e
x
p
(
E
z
−
j
ln
p
(
x
,
z
)
)
∫
z
j
e
x
p
(
E
z
−
j
ln
p
(
x
,
z
)
)
d
z
j
\begin{align} q_j^*(z_j) & =\frac{\mathrm{exp}(\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}}))} {\int_{z_j}\mathrm{exp}(\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})) \,\mathrm{d}z_j } \tag{14.84} \end{align}
qj∗(zj)=∫zjexp(z−jElnp(x,z))dzjexp(z−jElnp(x,z))(14.84)
式(14.84)【西瓜书式(14.40)】即为满足可分解条件下的使
L
(
q
)
\mathcal{L} (q)
L(q)最大化的解。 求出所有
q
j
∗
(
z
j
)
q_j^*(z_j)
qj∗(zj)代入式(14.72)即得要求的
q
(
z
)
q(\boldsymbol{\mathrm{z}})
q(z)。
注意到式(14.84)的两边都含有
q
q
q(右边是通过
E
z
−
j
\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}}
z−jE隐式地包含
q
q
q),实际上可将等式(14.84)变为递推式来求解:左边的
q
q
q变为
q
t
+
1
q^{t+1}
qt+1,右边的
q
q
q变为
q
t
q^{t}
qt,
只要
E
z
−
j
ln
p
(
x
,
z
)
\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})
z−jElnp(x,z)有关于
p
(
x
,
z
)
p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})
p(x,z)的闭式解,即可用递推式方便地进行求解。
式(14.84)中为求 q j ∗ ( z j ) q_j^*(z_j) qj∗(zj),却要通过 E z − j ln p ( x , z ) \mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}}) z−jElnp(x,z)融合 z − j \boldsymbol{\mathrm{z}}_{-j} z−j,因“期望”有“平均”的意思,故该方法亦称为“平均场”方法。
另外,式(14.84)是对 z \boldsymbol{\mathrm{z}} z中的任一个分量 z j z_j zj而推导的,事实上,将 z j z_j zj换成子集 z j \boldsymbol{\mathrm{z}}_{j} zj仍成立。
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权
上一篇:14.8 再谈吉布斯采样(将“多变量”联合采样变为交替地“单变量”采样)
下一篇:14.10 变分推断用于EM算法