Jensen不等式、数值积分的变分界、KL散度

最新推荐文章于 2023-08-25 07:00:00 发布

Turbo-shengsong

最新推荐文章于 2023-08-25 07:00:00 发布

阅读量597

点赞数

分类专栏：信息与通信文章标签：算法概率论机器学习

本文链接：https://blog.csdn.net/weixin_43413559/article/details/126584170

版权

信息与通信专栏收录该内容

22 篇文章 21 订阅

订阅专栏

Jensen不等式： Jensen’s inequality
变分界：Variational bounding
KL散度：KL-divergence

Jesen不等式
如果 $f$ 是凸函数，则对于随机变量X，下列不等式成立
$\mathbb E[f(X)] \geq f \left ( \mathbb E [X]\right) \tag{1}$

当f=C时取等号，C是一个常数。

变分界

（1）基于Jensen不等式的变分界

我们考虑数值积分 $I=\int_x f(x) dx$ 的变分界。引入一个随机函数 $q (x)$ ：
$\int_x q(x) \frac{ f(x) }{ q(x) } dx \tag{2}$

利用log凹函数的性质，代入Jensen不等式：
$\begin{aligned} \log \int_x q(x) g(x) dx &\geq \int_x q(x) \log g(x) dx \\ \text{if} \int_x q(x) dx &= 1 \end{aligned} \tag{3}$

将式(3)代入到式(2)中，
$\geq \exp \left( \int_x q(x) \log \frac{f(x)}{q(x)} dx \right ) \tag{4}$

注意，式(4)要求 $f (x)$ 是正的。我们可以随意地选取 $q (x)$ 来找到最紧的界（最大化式(4)右边的项）。恰好，这与最小化KL散度是一致的：
$\int_x q(x) \log \frac{q(x)}{f(x)} dx \tag{5}$

关于KL散度更多的介绍参看其他KL散度链接。

我们证明KL散度的非负性：
$\begin{aligned} D(q||f) &= \int_x q(x) \log \frac{q(x)}{f(x)} dx \\ &= \mathbb E_{q(x)} \left [ \log \frac{q(x)}{f(x)} \right ] \\ &= - \mathbb E_{q(x)} \left [ \log \frac{f(x)}{q(x)} \right ] \\ & \geq \log \int_x q(x) \frac{f(x)}{q(x)} dx = 0 \end{aligned} \tag{6}$

（2）通过被积函数的界来找到变分界（less accurate）

首先找到被积函数 $f (x)$ 的一个界：
$\begin{aligned} f(x) & \geq g(x) \text{ for all } x \\ I & \geq \int_x g(x) dx \end{aligned} \tag{7}$

与(1)所述的变分界有所不同，方法（2）可以被用于高斯混合分布。另外，该方法既可以被显示地利用，也可以被隐式地利用（变分贝叶斯）。我们介绍其中隐式的方法。

隐式方法会引入隐变量(hidden variable)来定义界，我们把 $f (x)$ 写为：
$\begin{aligned} f(x) = \int_y h(x,y) dy \end{aligned} \tag{8}$

利用Jensen界，我们可以得到
$\begin{aligned} I &= \int_{x,y} h(x,y) dy dx \\ & \geq \exp \left ( \int_{x,y} q(x,y) \log \frac{h(x,y)}{q(x,y)} dx dy \right ) \end{aligned} \tag{9}$

我们对 $q (x, y)$ 加一个约束，假设它能够被分解为独立的形式：
$q_x(x) \cdot q_y(y) \tag{10}$

$q_x(x)$ 和 $q_y(y)$ 进一步迭代优化，来得到最大化界的解。

为了验证式(9)跟式(7)是等价的，我们这样分析，给定任意的 $q_y(y)$ ，可以解出最优的$q_x(x)
$\begin{aligned} q_x(x) &= \frac{g(x)}{ \int_x g(x) dx } \\ \text{where } g(x) &= \exp \left ( \int_y q_y(y) \log \frac{ h(x,y) }{ q_y(y) } dy \right) \end{aligned} \tag{11}$