变分推断与重要性采样

最新推荐文章于 2022-12-01 20:59:33 发布

Jie Qiao

最新推荐文章于 2022-12-01 20:59:33 发布

阅读量516

点赞数

分类专栏：人工智能

本文链接：https://blog.csdn.net/a358463121/article/details/100880184

版权

人工智能专栏收录该内容

51 篇文章 16 订阅

订阅专栏

Preliminary

变分推断其实就是当似然度有隐变量z的时候不好算，所以用一个分布q(z)去近似真实的分布p(z|x)

$\log p(\mathbf{x} )=\underbrace{\underset{q(\mathbf{z} )}{\mathbb{E}}\log\frac{p(\mathbf{z} ,\mathbf{x} )}{q(\mathbf{z} )}}_{\text{ELBO } [q(\mathbf{z} )\| p(\mathbf{z} ,\mathbf{x} )]} +\underbrace{\operatorname{KL} [q(\mathbf{z} )\| p(\mathbf{z} |\mathbf{x} )]}_{\text{divergence }}$

左边一项就是ELBO下界，首先p(x)，当x固定的时候，这就是一个常数，这时候，如果q发生变化，那么ELBO和divergence这两个部分的相对大小就会发生变化，当 $\displaystyle q(\mathbf{z} )=p(\mathbf{z} |\mathbf{x} )$ 的时候，我们就得到准确的似然度的值。

目前变分大致有两个方向，一个是用各种方法加强q的拟合能力，典型代表就是normalizing flow，另一个方向就是用各种方法收窄下界的bound，提出一系列新的下界。接来下介绍的就是结合重要采样的思想来收紧下界的方法。

Important Sampling

先介绍一下importance sampling，他的核心思想其实就是当从分布p抽样本不好抽的时候，我把他变成从分布q中抽样本，考虑计算期望的积分：

$E_{x\sim p( x)}( f( x)) =\int f( x) p( x) dx=\int f( x)\frac{p( x)}{q( x)} q( x) dx=E_{x\sim q( x)}\left(\frac{p( x)}{q( x)} f( x)\right) \approx \frac{1}{S}\sum ^{S}_{i=1} w_{s} f( x_{s})$

我们称 $\displaystyle w_{s} =\frac{p( x_{s})}{q( x_{s})}$ 为important weight。那important sampling的important是什么意思呢？首先这个期望其实是很大部分是取决于p(x)中概率比较大的部分的，所以如果我们能够在这样“重要”的部分集中力量采样，那么这个积分的计算其实也是非常准且高效的，所以一个好的q函数，应该让他尽可能覆盖分布p高概率的部分。

讲到这里，或许你会想到，其实我们本质上就是想要找到一个q尽可能近似分布p，而这不就是变分的思想吗？设

$f(\mathbf{x} ,\mathbf{z}) =p(\mathbf{x|z} ),\displaystyle w=\frac{p(\mathbf{z})}{q(\mathbf{z} )}$

于是

$\displaystyle p(\mathbf{x}) =\int f(\mathbf{x} ,\mathbf{z})\frac{p(\mathbf{z})}{q(\mathbf{z} )} q(\mathbf{z} )d\mathbf{z} =E_{z\sim q(\mathbf{z} )}\left[\frac{p(\mathbf{z})}{q(\mathbf{z} )} f(\mathbf{x} ,\mathbf{z})\right]$

从这个公式可以看出其实 $\displaystyle p(\mathbf{x})$ 的本质上可以看做是一个important weight的结果，而这个结果我们可以用一个下界去近似：

$\log p(\mathbf{x} )\ =\log E_{z\sim q(\mathbf{z} )}\left[\frac{p(\mathbf{z})}{q(\mathbf{z} )} f(\mathbf{x} ,\mathbf{z})\right] =\log E_{z\sim q(\mathbf{z} )}\left[\frac{p(\mathbf{x,z} )}{q(\mathbf{z} )}\right] \geqslant \underbrace{E_{z\sim q(\mathbf{z} )}\left[\log\frac{p(\mathbf{x,z} )}{q(\mathbf{z} )}\right]}_{ELBO}$

所以变分，本质上是一个用important sampling来计算的某个期望的下界，所以，一个最直观提升的方法那就是我先对 $\displaystyle \frac{p(\mathbf{x,z} )}{q(\mathbf{z} )}$ 多抽几次样，不就行了，即

$E_{z\sim q(\mathbf{z} )}\left[\frac{p(\mathbf{x,z}_{i} )}{q(\mathbf{z}_{i} )}\right] =E_{z_{1} ,z_{2} ,...,z_{k} \sim q(\mathbf{z} )}\left[\frac{1}{k}\sum ^{k}_{i=1}\frac{p(\mathbf{x,z}_{i} )}{q(\mathbf{z}_{i} )}\right]$

这两个其实是等价的，那么对应的变分下界就变成

$\log E_{z_{1} ,z_{2} ,...,z_{k} \sim q(\mathbf{z} )}\left[\frac{1}{k}\sum ^{k}_{i=1}\frac{p(\mathbf{x,z}_{i} )}{q(\mathbf{z}_{i} )}\right] \geqslant E_{z_{1} ,z_{2} ,...,z_{k} \sim q(\mathbf{z} )}\left[\log\frac{1}{k}\sum ^{k}_{i=1}\frac{p(\mathbf{x,z}_{i} )}{q(\mathbf{z}_{i} )}\right]$

而这个正是Importance weighted autoencoders论文中所用的目标函数！显然，随着 $\displaystyle k\rightarrow \infty$ ，这个下界一定收敛到最大值，因为 $\displaystyle \frac{1}{k}\sum ^{k}_{i=1}\frac{p(\mathbf{x,z}_{i} )}{q(\mathbf{z}_{i} )} \approx E_{z\sim q(\mathbf{z} )}\left[\frac{p(\mathbf{x,z} )}{q(\mathbf{z} )}\right] =p(\mathbf{x} )$ ，并且如果我们比较两个界，那个可以证明，多采几次样的界肯定能更小：

GLBO

接下来我们可以进一步推广这下界，注意到，变分下界都是基于Jensen不等式的，而这个不等式则是基于log这个凹函数才成立的，那么如果我们不用log，而用一个一般的凹函数来表达，于是可以得到

$GLBO(x;K)\triangleq \psi ^{-1}\left(\mathbb{E}_{Z_{1:K} \sim q_{\beta }}\left[ h\left(\frac{1}{K}\sum ^{K}_{k=1}\frac{p_{\alpha }( x,Z_{k})}{q_{\beta }( Z_{k} |x)}\right)\right]\right)$

其中 $\displaystyle h(u)\triangleq \psi (\phi (u))$ 表示某个凹函数，并且 $\displaystyle \phi$ 也是凹函数， $\displaystyle \psi$ 则是某个单调增的凸函数。

这个更一般界可以用于进行模型选择，因为当我们用q去近似p的时候，因为我们是对隐变量进行积分，所以其实有很多个等价的q有着等价的近似程度，也就是他们的目标函数的值是一样的。那么这里的模型选择是希望在这些一样的模型中，选择q的熵最大的那个，也就是最大熵。于是我们希望拟合的模型的likelihood在evidence小的时候，梯度更大，而在evidence大的时候梯度相对小，从而使得学习出来的模型的likelihood更加的均衡，可以证明，这种带权重的优化本质上就是GLBO，考虑以下梯度：

$\nabla _{\alpha } \phi ( p_{\alpha } (x)) =\underbrace{\phi ^{\prime }( p_{\alpha } (x)) p_{\alpha } (x)}_{(a)}\underbrace{\nabla _{\alpha }\log p_{\alpha } (x)}_{(b)}$

显然(b)部分是普通ELBO似然的梯度，而(a)部分就可以看做是一种权重，于是，我们只需要在evidence较低的时候设置 $\displaystyle \phi$ 较大的斜率，在在evidence较大的时候设置更小的斜率，就可以达到目的。

参考资料

Burda, Y., Grosse, R., & Salakhutdinov, R. (2015). Importance Weighted Autoencoders, 1–14. https://doi.org/http://dx.doi.org/10.1634/theoncologist.2013-0268

Domke, J., & Sheldon, D. (2018). Importance weighting and variational inference. Advances in Neural Information Processing Systems, 2018–Decem(NeurIPS), 4470–4479.

Tao, C., Chen, L., Zhang, R., Henao, R., & Carin, L. (2018). Variational inference and model selection with generalized evidence bounds. 35th International Conference on Machine Learning, ICML 2018, 2, 1419–1435.

Jie Qiao

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
变分推断与重要性采样

Preliminary变分推断其实就是当似然度有隐变量z的时候不好算，所以用一个分布q(z)去近似真实的分布p(z|x)log⁡p(x)=Eq(z)log⁡p(z,x)q(z)⎵ELBO [q(z)∥p(z,x)]+KL⁡[q(z)∥p(z∣x)]⎵divergence \log p(\mathbf{x} )=\underbrace{\underset{q(\mathbf...
复制链接

扫一扫

专栏目录