Contrastive Divergence：一种结合变分推断与MCMC的方法

最新推荐文章于 2022-03-20 13:53:24 发布

Jie Qiao

最新推荐文章于 2022-03-20 13:53:24 发布

阅读量719

点赞数 1

分类专栏：人工智能机器学习文章标签：变分推断 MCMC contrastive divergence varational

本文链接：https://blog.csdn.net/a358463121/article/details/91958119

版权

人工智能同时被 2 个专栏收录

51 篇文章 16 订阅

订阅专栏

机器学习

12 篇文章 1 订阅

订阅专栏

本文是对A Contrastive Divergence for Combining Variational Inference and MCMC的笔记整理。

Introduction

这篇文章是将VI和MCMC结合的一篇很有意思的文章。他的基本思想沿用了RBM中的Contrastive Divergence方法。他通过采用MCMC的方法来对变分函数q进行抽样从而得到更加准确的变分函数，然后再以此更新变分函数的参数，以次迭代直到收敛。

我们先回顾一下变分推断，更详细的介绍可以看我之前的两篇文章

简单来说，当存在隐变量时，我们只能得到数据的marginal likelihood，此时，模型的优化就变得很困难，为此，我们希望能够找到一个分布 $\displaystyle q_{\theta } (z)$ 来近似真实的分布 $\displaystyle p (z|x)$ ，于是我们发现最小化散度 $\displaystyle KL( q_{\theta } (z)\| p (z|x))$ 等价于最大化下界ELBO的函数：

$\mathcal{L}_{\text{ standard }} (\theta )=\mathbb{E}_{q_{\theta } (z)}[ f_{\theta } (z)] =-D_{KL}( q_{\boldsymbol{\theta }}(\mathbf{z}) \| p (\mathbf{z} )) +\mathbb{E}_{q_{\boldsymbol{\theta }}(\mathbf{z})}[\log p(\mathbf{x} |\mathbf{z})]$

其中

$f_{\theta } (z)\triangleq \log p(x,z)-\log q_{\theta } (z).$

但是变分的缺陷在于，那个近似的分布q是无法保证近似的效果的，很有可能近似地很糟糕，与此同时，MCMC只要马尔科夫链长度足够，我们是一定能够恢复出真实的后验概率的，但是MCMC的速度又太慢了。所以，我们能不能将VI学到的 $\displaystyle q_{\theta } (z)$ 作为MCMC的初始值，用MCMC迭代几轮，让他长得更像 $\displaystyle p (z|x)$ ，然后再回去更新近似分布的参数 $\displaystyle q_{\theta } (z)$ ，如此迭代地来即解决了变分近似不准的问题，又解决了MCMC速度慢的问题。

方法

我们用
$q^{(t)}_{\theta } (z)=\int Q^{(t)} (z|z_{0} )q_{\theta } (z_{0} )dz_{0}$

来表示使用 $z_0$ 作为初始值，并经过t次 $\displaystyle Q^{(t)} (z|z_{0} )$ 的转移而达到的分布记为 $\displaystyle q^{(t)}_{\theta } (z)$ 。注意这个分布的解析解是无法计算的，他只是可以表示成这样而已。用这个新的q，我们的变分下界可以改进成：

$\mathcal{L}_{\text{ improved }} (\theta )=\mathbb{E}_{q^{(t)}_{\theta } (z)}\left[\log p(x,z)-\log q^{(t)}_{\theta } (z)\right]$

但问题是，现在 $\displaystyle \theta$ 没法求导。一般的求导方法有两种，一种是重参数化，另一种是则是reinforce，像这样的：

$\nabla _{\phi }\mathbb{E}_{q_{\phi } (\mathbf{z} )} [f(\mathbf{z} )]=\mathbb{E}_{q_{\phi } (\mathbf{z} )}[ f(\mathbf{z} )\nabla _{q_{\phi } (\mathbf{z} )}\log q_{\phi } (\mathbf{z} )] \simeq \frac{1}{L}\sum ^{L}_{l=1} f(\mathbf{z} )\nabla _{q_{\phi }\left(\mathbf{z}^{(l)}\right)}\log q_{\phi }\left(\mathbf{z}^{(l)}\right)$

然而现在，因为 $\displaystyle q^{(t)}_{\theta } (z)$ 的实际分布我们不知道，于是他概率密度的值 $\displaystyle \log q^{(t)}_{\theta } (z)$ 是没法算的，那自然梯度也没法算，怎么办呢？能不能找到一个新的“下界”，使得下界永远是大于等于0的，且下界为0时恰好有 $\displaystyle q_{\theta } (z)=p( z|x)$ ，更重要的是，不需要计算 $\displaystyle \log q^{( t)}_{\theta }(\mathbf{z})$ 。为此，该文发现一个三角不等式

$\operatorname{KL}( q_{\theta } (z)\| p(z|x)) +\mathrm{KL}\left( q^{(t)}_{\theta } (z)\| q_{\theta } (z)\right) \geq \mathrm{KL}\left( q^{(t)}_{\theta } (z)\| p(z|x)\right)\\ \Longrightarrow \underbrace{\operatorname{KL}( q_{\theta } (z)\| p(z|x)) -\mathrm{KL}\left( q^{(t)}_{\theta } (z)\| p(z|x)\right)}_{\mathcal{L}_{\text{diff}} (\theta )} +\mathrm{KL}\left( q^{(t)}_{\theta } (z)\| q_{\theta } (z)\right) \geq 0$

注意，这个三角不等式成立的原因是因为 $\displaystyle q^{(t)}_{\theta } (z)$ 一定更接近 $\displaystyle p(z|x)$ 。于是我们定义

$\mathcal{L}_{\mathrm{VCD}} (\theta )\triangleq \mathcal{L}_{\mathrm{diff}} (\theta )+\mathrm{KL}\left( q^{(t)}_{\theta } (z)\| q_{\theta } (z)\right)$

这个新的目标函数很有意思，当 $\displaystyle q_{\theta } (z)=p(z|x)$ 时，一定有 $\displaystyle q^{(t)}_{\theta } (z)=p(z|x)$ 于是 $\mathcal{L}_{\mathrm{VCD}}=0$ ，而且根据三角不等式，他一定是大于0的，所以我们完全可以用这个来代替下界的目标函数，而且关键地方在于，他不需要计算 $\displaystyle \log q^{( t)}_{\theta }(\mathbf{z})$ ，看如下推导：

$\begin{aligned} \mathcal{L}_{\mathrm{VCD}} (\theta )= & \operatorname{KL}( q_{\theta } (z)\| p(z|x)) -\mathrm{KL}\left( q^{(t)}_{\theta } (z)\| p(z|x)\right) +\mathrm{KL}\left( q^{(t)}_{\theta } (z)\| q_{\theta } (z)\right)\\ = & \mathbb{E}_{q_{\theta } (z)}\left[\log\frac{q_{\theta } (z)}{p(z|x)}\right] -\mathbb{E}_{q^{(t)}_{\theta } (z)}\left[\log\frac{q^{(t)}_{\theta } (z)}{p(z|x)}\right] +\mathbb{E}_{q^{(t)}_{\theta } (z)}\left[\log\frac{q^{(t)}_{\theta } (z)}{q_{\theta } (z)}\right]\\ = & \mathbb{E}_{q_{\theta } (z)}\left[\log\frac{q_{\theta } (z)}{p(z|x)}\right] -\mathbb{E}_{q^{(t)}_{\theta } (z)}\left[\log\frac{q_{\theta } (z)}{p(z|x)}\right]\\ = & \mathbb{E}_{q_{\theta } (z)}\left[\log\frac{q_{\theta } (z)p( x)}{p(z,x)}\right] -\mathbb{E}_{q^{(t)}_{\theta } (z)}\left[\log\frac{q_{\theta } (z)p( x)}{p(z,x)}\right]\\ = & \mathbb{E}_{q_{\theta } (z)}\left[\log\frac{q_{\theta } (z)}{p(z,x)}\right] -\mathbb{E}_{q^{(t)}_{\theta } (z)}\left[\log\frac{q_{\theta } (z)}{p(z,x)}\right]\\ = & -\mathbb{E}_{q_{\theta } (z)}[ f_{\theta } (z)] +\mathbb{E}_{q^{(t)}_{\theta } (z)}[ f_{\theta } (z)] \end{aligned}$

神奇的事情发生了，在期望里面最讨厌的 $\displaystyle \log q^{(t)}_{\theta } (z)$ 被消去了，接下来事情好办了，对于梯度，第一项的梯度我们可以用传统的方法解决，比如重参数化，对于第二项的梯度，可以这样算：

$\begin{aligned} \nabla _{\theta }\mathbb{E}_{q^{(t)}_{\theta } (z)}[ f_{\theta } (z)] & =\int q^{(t)}_{\theta } (z)\times \nabla _{\theta } f_{\theta } (z)dz+\int \nabla _{\theta } q^{(t)}_{\theta } (z)\times f_{\theta } (z)dz\\ & =-\int q^{(t)}_{\theta } (z)\times \nabla _{\theta }\log q_{\theta }( z_{0}) dz+\int \left( \nabla _{\theta }\int Q^{(t)} (z|z_{0} )q_{\theta } (z_{0} )dz_{0}\right) \times f_{\theta } (z)dz\\ & =-\mathbb{E}_{q^{(t)}_{\theta } (z)}[ \nabla _{\theta }\log q_{\theta } (z)] +\int \int Q^{(t)} (z|z_{0} )q_{\theta }( z_{0}) \nabla _{\theta }\log q_{\theta } (z_{0} )dz_{0} \times f_{\theta } (z)dz\\ & =-\mathbb{E}_{q^{(t)}_{\theta } (z)}[ \nabla _{\theta }\log q_{\theta } (z)] +\mathbb{E}_{q_{\theta }( z_{0})}[\mathbb{E}_{Q^{(t)}( z|z_{0})}[ f_{\theta } (z)] \nabla _{\theta }\log q_{\theta }( z_{0})] \end{aligned}$

第二个等于号，首先第一项因为 $\displaystyle p( x,z)$ 与参数 $\displaystyle \theta$ 无关，所以 $\displaystyle \nabla _{\theta } f_{\theta } (z)=\nabla _{\theta }\log q_{\theta }( z_{0})$ ，针对第二项，根据定义 $\displaystyle q^{(t)}_{\theta } (z)=\int Q^{(t)} (z|z_{0} )q_{\theta } (z_{0} )dz_{0}$ 代进去得到。第三个等于号是因为

$\begin{array}{ c l } \nabla _{\theta } q^{(t)}_{\theta } (z) & =\nabla _{\theta }\int Q^{(t)}( z|z_{0}) q_{\theta }( z_{0}) dz_{0}\\ & =\int Q^{(t)}( z|z_{0}) q_{\theta }( z_{0}) \nabla _{\theta }\log q_{\theta }( z_{0}) dz_{0} \end{array}$

于是这个梯度公式是完全可以用蒙特卡洛计算的，即我们 $\displaystyle q^{(t)}_{\theta } (z)$ 的样本可以用MCMC得到，只需先采样 $\displaystyle z_{o} \sim q_{\theta }( z)$ ，然后跑t次MCMC，得到 $\displaystyle z\sim Q^{(t)}( z|z_{0})$ 就可以了。