Jensen不等式、数值积分的变分界、KL散度

Jensen不等式: Jensen’s inequality
变分界:Variational bounding
KL散度:KL-divergence

Jesen不等式
如果 f f f是凸函数,则对于随机变量X,下列不等式成立
E [ f ( X ) ] ≥ f ( E [ X ] ) (1) \mathbb E[f(X)] \geq f \left ( \mathbb E [X]\right) \tag{1} E[f(X)]f(E[X])(1)

当f=C时取等号,C是一个常数。

变分界

(1)基于Jensen不等式的变分界

我们考虑数值积分 I = ∫ x f ( x ) d x I=\int_x f(x) dx I=xf(x)dx的变分界。引入一个随机函数 q ( x ) q(x) q(x)
I = ∫ x q ( x ) f ( x ) q ( x ) d x (2) I = \int_x q(x) \frac{ f(x) }{ q(x) } dx \tag{2} I=xq(x)q(x)f(x)dx(2)

利用log凹函数的性质,代入Jensen不等式:
log ⁡ ∫ x q ( x ) g ( x ) d x ≥ ∫ x q ( x ) log ⁡ g ( x ) d x if ∫ x q ( x ) d x = 1 (3) \begin{aligned} \log \int_x q(x) g(x) dx &\geq \int_x q(x) \log g(x) dx \\ \text{if} \int_x q(x) dx &= 1 \end{aligned} \tag{3} logxq(x)g(x)dxifxq(x)dxxq(x)logg(x)dx=1(3)

将式(3)代入到式(2)中,
I ≥ exp ⁡ ( ∫ x q ( x ) log ⁡ f ( x ) q ( x ) d x ) (4) I \geq \exp \left( \int_x q(x) \log \frac{f(x)}{q(x)} dx \right ) \tag{4} Iexp(xq(x)logq(x)f(x)dx)(4)

注意,式(4)要求 f ( x ) f(x) f(x)是正的。我们可以随意地选取 q ( x ) q(x) q(x)来找到最紧的界(最大化式(4)右边的项)。恰好,这与最小化KL散度是一致的:
D ( q ∣ ∣ f ) = ∫ x q ( x ) log ⁡ q ( x ) f ( x ) d x (5) D(q||f) = \int_x q(x) \log \frac{q(x)}{f(x)} dx \tag{5} D(q∣∣f)=xq(x)logf(x)q(x)dx(5)

关于KL散度更多的介绍参看其他KL散度链接

我们证明KL散度的非负性:
D ( q ∣ ∣ f ) = ∫ x q ( x ) log ⁡ q ( x ) f ( x ) d x = E q ( x ) [ log ⁡ q ( x ) f ( x ) ] = − E q ( x ) [ log ⁡ f ( x ) q ( x ) ] ≥ log ⁡ ∫ x q ( x ) f ( x ) q ( x ) d x = 0 (6) \begin{aligned} D(q||f) &= \int_x q(x) \log \frac{q(x)}{f(x)} dx \\ &= \mathbb E_{q(x)} \left [ \log \frac{q(x)}{f(x)} \right ] \\ &= - \mathbb E_{q(x)} \left [ \log \frac{f(x)}{q(x)} \right ] \\ & \geq \log \int_x q(x) \frac{f(x)}{q(x)} dx = 0 \end{aligned} \tag{6} D(q∣∣f)=xq(x)logf(x)q(x)dx=Eq(x)[logf(x)q(x)]=Eq(x)[logq(x)f(x)]logxq(x)q(x)f(x)dx=0(6)

(2)通过被积函数的界来找到变分界(less accurate)

首先找到被积函数 f ( x ) f(x) f(x)的一个界:
f ( x ) ≥ g ( x )  for all  x I ≥ ∫ x g ( x ) d x (7) \begin{aligned} f(x) & \geq g(x) \text{ for all } x \\ I & \geq \int_x g(x) dx \end{aligned} \tag{7} f(x)Ig(x) for all xxg(x)dx(7)

与(1)所述的变分界有所不同,方法(2)可以被用于高斯混合分布。另外,该方法既可以被显示地利用,也可以被隐式地利用(变分贝叶斯)。我们介绍其中隐式的方法。

隐式方法会引入隐变量(hidden variable)来定义界,我们把 f ( x ) f(x) f(x)写为:
f ( x ) = ∫ y h ( x , y ) d y (8) \begin{aligned} f(x) = \int_y h(x,y) dy \end{aligned} \tag{8} f(x)=yh(x,y)dy(8)

利用Jensen界,我们可以得到
I = ∫ x , y h ( x , y ) d y d x ≥ exp ⁡ ( ∫ x , y q ( x , y ) log ⁡ h ( x , y ) q ( x , y ) d x d y ) (9) \begin{aligned} I &= \int_{x,y} h(x,y) dy dx \\ & \geq \exp \left ( \int_{x,y} q(x,y) \log \frac{h(x,y)}{q(x,y)} dx dy \right ) \end{aligned} \tag{9} I=x,yh(x,y)dydxexp(x,yq(x,y)logq(x,y)h(x,y)dxdy)(9)

我们对 q ( x , y ) q(x,y) q(x,y)加一个约束,假设它能够被分解为独立的形式:
q ( x , y ) = q x ( x ) ⋅ q y ( y ) (10) q(x,y) = q_x(x) \cdot q_y(y) \tag{10} q(x,y)=qx(x)qy(y)(10)

q x ( x ) q_x(x) qx(x) q y ( y ) q_y(y) qy(y)进一步迭代优化,来得到最大化界的解。

为了验证式(9)跟式(7)是等价的,我们这样分析,给定任意的 q y ( y ) q_y(y) qy(y),可以解出最优的$q_x(x)
q x ( x ) = g ( x ) ∫ x g ( x ) d x where  g ( x ) = exp ⁡ ( ∫ y q y ( y ) log ⁡ h ( x , y ) q y ( y ) d y ) (11) \begin{aligned} q_x(x) &= \frac{g(x)}{ \int_x g(x) dx } \\ \text{where } g(x) &= \exp \left ( \int_y q_y(y) \log \frac{ h(x,y) }{ q_y(y) } dy \right) \end{aligned} \tag{11} qx(x)where g(x)=xg(x)dxg(x)=exp(yqy(y)logqy(y)h(x,y)dy)(11)

然后我们用上式替换 h ( x ) h(x) h(x),可以得到,
I ≥ ∫ x g ( x ) d x (12) I \geq \int_x g(x) dx \tag{12} Ixg(x)dx(12)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值