Jensen不等式: Jensen’s inequality
变分界:Variational bounding
KL散度:KL-divergence
Jesen不等式
如果 f f f是凸函数,则对于随机变量X,下列不等式成立
E [ f ( X ) ] ≥ f ( E [ X ] ) (1) \mathbb E[f(X)] \geq f \left ( \mathbb E [X]\right) \tag{1} E[f(X)]≥f(E[X])(1)当f=C时取等号,C是一个常数。
变分界
(1)基于Jensen不等式的变分界
我们考虑数值积分
I
=
∫
x
f
(
x
)
d
x
I=\int_x f(x) dx
I=∫xf(x)dx的变分界。引入一个随机函数
q
(
x
)
q(x)
q(x):
I
=
∫
x
q
(
x
)
f
(
x
)
q
(
x
)
d
x
(2)
I = \int_x q(x) \frac{ f(x) }{ q(x) } dx \tag{2}
I=∫xq(x)q(x)f(x)dx(2)
利用log凹函数的性质,代入Jensen不等式:
log
∫
x
q
(
x
)
g
(
x
)
d
x
≥
∫
x
q
(
x
)
log
g
(
x
)
d
x
if
∫
x
q
(
x
)
d
x
=
1
(3)
\begin{aligned} \log \int_x q(x) g(x) dx &\geq \int_x q(x) \log g(x) dx \\ \text{if} \int_x q(x) dx &= 1 \end{aligned} \tag{3}
log∫xq(x)g(x)dxif∫xq(x)dx≥∫xq(x)logg(x)dx=1(3)
将式(3)代入到式(2)中,
I
≥
exp
(
∫
x
q
(
x
)
log
f
(
x
)
q
(
x
)
d
x
)
(4)
I \geq \exp \left( \int_x q(x) \log \frac{f(x)}{q(x)} dx \right ) \tag{4}
I≥exp(∫xq(x)logq(x)f(x)dx)(4)
注意,式(4)要求
f
(
x
)
f(x)
f(x)是正的。我们可以随意地选取
q
(
x
)
q(x)
q(x)来找到最紧的界(最大化式(4)右边的项)。恰好,这与最小化KL散度是一致的:
D
(
q
∣
∣
f
)
=
∫
x
q
(
x
)
log
q
(
x
)
f
(
x
)
d
x
(5)
D(q||f) = \int_x q(x) \log \frac{q(x)}{f(x)} dx \tag{5}
D(q∣∣f)=∫xq(x)logf(x)q(x)dx(5)
关于KL散度更多的介绍参看其他KL散度链接。
我们证明KL散度的非负性:
D
(
q
∣
∣
f
)
=
∫
x
q
(
x
)
log
q
(
x
)
f
(
x
)
d
x
=
E
q
(
x
)
[
log
q
(
x
)
f
(
x
)
]
=
−
E
q
(
x
)
[
log
f
(
x
)
q
(
x
)
]
≥
log
∫
x
q
(
x
)
f
(
x
)
q
(
x
)
d
x
=
0
(6)
\begin{aligned} D(q||f) &= \int_x q(x) \log \frac{q(x)}{f(x)} dx \\ &= \mathbb E_{q(x)} \left [ \log \frac{q(x)}{f(x)} \right ] \\ &= - \mathbb E_{q(x)} \left [ \log \frac{f(x)}{q(x)} \right ] \\ & \geq \log \int_x q(x) \frac{f(x)}{q(x)} dx = 0 \end{aligned} \tag{6}
D(q∣∣f)=∫xq(x)logf(x)q(x)dx=Eq(x)[logf(x)q(x)]=−Eq(x)[logq(x)f(x)]≥log∫xq(x)q(x)f(x)dx=0(6)
(2)通过被积函数的界来找到变分界(less accurate)
首先找到被积函数
f
(
x
)
f(x)
f(x)的一个界:
f
(
x
)
≥
g
(
x
)
for all
x
I
≥
∫
x
g
(
x
)
d
x
(7)
\begin{aligned} f(x) & \geq g(x) \text{ for all } x \\ I & \geq \int_x g(x) dx \end{aligned} \tag{7}
f(x)I≥g(x) for all x≥∫xg(x)dx(7)
与(1)所述的变分界有所不同,方法(2)可以被用于高斯混合分布。另外,该方法既可以被显示地利用,也可以被隐式地利用(变分贝叶斯)。我们介绍其中隐式的方法。
隐式方法会引入隐变量(hidden variable)来定义界,我们把
f
(
x
)
f(x)
f(x)写为:
f
(
x
)
=
∫
y
h
(
x
,
y
)
d
y
(8)
\begin{aligned} f(x) = \int_y h(x,y) dy \end{aligned} \tag{8}
f(x)=∫yh(x,y)dy(8)
利用Jensen界,我们可以得到
I
=
∫
x
,
y
h
(
x
,
y
)
d
y
d
x
≥
exp
(
∫
x
,
y
q
(
x
,
y
)
log
h
(
x
,
y
)
q
(
x
,
y
)
d
x
d
y
)
(9)
\begin{aligned} I &= \int_{x,y} h(x,y) dy dx \\ & \geq \exp \left ( \int_{x,y} q(x,y) \log \frac{h(x,y)}{q(x,y)} dx dy \right ) \end{aligned} \tag{9}
I=∫x,yh(x,y)dydx≥exp(∫x,yq(x,y)logq(x,y)h(x,y)dxdy)(9)
我们对
q
(
x
,
y
)
q(x,y)
q(x,y)加一个约束,假设它能够被分解为独立的形式:
q
(
x
,
y
)
=
q
x
(
x
)
⋅
q
y
(
y
)
(10)
q(x,y) = q_x(x) \cdot q_y(y) \tag{10}
q(x,y)=qx(x)⋅qy(y)(10)
q x ( x ) q_x(x) qx(x)和 q y ( y ) q_y(y) qy(y)进一步迭代优化,来得到最大化界的解。
为了验证式(9)跟式(7)是等价的,我们这样分析,给定任意的
q
y
(
y
)
q_y(y)
qy(y),可以解出最优的$q_x(x)
q
x
(
x
)
=
g
(
x
)
∫
x
g
(
x
)
d
x
where
g
(
x
)
=
exp
(
∫
y
q
y
(
y
)
log
h
(
x
,
y
)
q
y
(
y
)
d
y
)
(11)
\begin{aligned} q_x(x) &= \frac{g(x)}{ \int_x g(x) dx } \\ \text{where } g(x) &= \exp \left ( \int_y q_y(y) \log \frac{ h(x,y) }{ q_y(y) } dy \right) \end{aligned} \tag{11}
qx(x)where g(x)=∫xg(x)dxg(x)=exp(∫yqy(y)logqy(y)h(x,y)dy)(11)
然后我们用上式替换
h
(
x
)
h(x)
h(x),可以得到,
I
≥
∫
x
g
(
x
)
d
x
(12)
I \geq \int_x g(x) dx \tag{12}
I≥∫xg(x)dx(12)