【一文学会】变分推断及其求解方法

最新推荐文章于 2025-04-14 13:02:52 发布

谁把小明注册了

最新推荐文章于 2025-04-14 13:02:52 发布

阅读量1.8w

点赞数 28

文章标签：变分推断蒙特卡洛 BBVI mean field reparameterization

本文链接：https://blog.csdn.net/weixin_40255337/article/details/83088786

版权

本文深入探讨变分推断（VI）在复杂后验概率近似中的应用，讲解变分的概念，以及如何通过构造和优化Q分布来逼近P(Z|X)。文中详细解释了ELBO（证据下界）的计算和最大化过程，介绍了三种主要的优化方法：古典方法（mean-field）、黑盒变分推断（BBVI）和重新参数化技巧。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

变分推断（变分推理）

变分

首先，什么是变分，对于 f(x) 我们是改变x来求出 f(x) 的极值，这里面的自变量是x;变分就是，通过改变 f(x) 来求出 F(f(x)) 的极值，这里的自变量是 f(x)。所以，简单来说，变分就是将我们常见的函数的自变量改成一个函数的形式。

背景描述

先说我们在考虑什么问题：

1，我们拥有两部分输入：数据X，模型P(X,Z) 专家利用他们的知识，给出合理的模型假设P(X,Z) ，其中包括隐含变量Z和观察值变量X。（注意，隐变量Z在通常情况下不止一个，并且相互间存在依赖关系，这也使得问题难以求解）我们认为，观察值是从已知的隐含变量组成的结构中生成出来的（这就是生成模型）。以高斯混合模型举例，我们有2个相互独立的高斯分布，分别从中生成很多数据点，这些数据点混合在一起，组成了一个数据集。切换角度，单从每一个数据点出发，考虑它是如何被生成的呢？生成过程分两步，第一步，从2个类中选一个，然后，再根据这个类对应的高斯分布，生成了这个点在空间中的位置。隐含变量有两个，第一个是2个高斯分布的参数 $\ left（\ mu，\ sigma \ right）$ ，第二个是每个点属于哪个高斯分布 $\ PI$ ， $\ left（\ mu，\ sigma \ right）$ 和 $\ PI$ 共同组成隐含变量Z。

2，后验概率P(Z|X) 是说，基于我们现有的数据集合X，推断隐含变量的分布情况。高斯混合模型为例，就是求每个高斯分布的参数 $\ left（\ mu，\ sigma \ right）$ 和每个数据点所属各个分布的概率 $\ PI$ 。根据贝叶斯公式，P(Z|X) = P(X,Z) / P(X)。我们根据专家提供的生成模型，可知 P(X,Z) 部分（可以写出表达式并且方便优化），但是边缘概率P(X) ，是不能求得的，因为当Z连续时，边缘概率需要对所有可能的Z求积分，难求；当Z离散时，计算复杂性随着X的增加而指数增长。

3，我们需要构造Q（Z; $\西塔$ ），并且不断更新 $\西塔$ ，使得Q（Z; $\西塔$ ）更接近P(Z|X) 。首先注意，Q（Z; $\西塔$ ）的表达，意思是Z是变量， $\西塔$ 是Z的概率分布Q的参数。所以在构造Q的时候也分两步，第一，概率分布的选择；第二，参数的选择。第一步，我们在选择Q的概率分布时，通常会直观选择P可能的概率分布，这样能够更好地保证Q和P的相似程度。例如高斯混合模型中，原始假设P服从高斯分布，则构造的Q依然服从高斯分布。之后，我们通过改变 $\西塔$ ，使得Q不断逼近P。

4，优化问题的求解思路。优化目标很明确，减小KL散度的值即可。然而，KL的表达式中依然有一部分不可求的后验概率，这就是为什么转头去求ELBO的原因。利用下面的等式（见后），ELBO中只包括联合概率P(X,Z)和Q（Z; $\西塔$ ），从而摆脱后验概率。给定数据集后，最小化KL等价于最大化ELBO，因此ELBO的最大化过程结束时，对应获得的Q（Z; $\西塔^ *$ ），就成为了我们的最后输出。

变分推断

现在进入正题，我们对一组数据 $X = \ {x_ {1}，x_ {2}，... x_ {N} \}$ ， $P（X）$ 表示模型生成数据的真实分布。机器学习中最常见的问题，就是求后验概率P(Z|X) ，这里的Z你可以认为是模型的响应变量，也可以说成隐变量。然而这个后验分布通常是复杂难求的，于是我们就考虑用一个相对简单的分布Q来对后验分布P近似。

我们从PRML上拿下一张经典的图，假设真实分布P用绿色曲线表示，现在我们希望用一组简单的Q不断逼近P，最终达到图d中的效果，这就是变分推断（VI）所做的事。如何去衡量Q与P之间的近似程度呢？VI中采用的衡量指标是KL散度。

接下来我们对P(X) 的做一些处理：

1，由条件概率公式：

2，两边取对数，并在等式右边引入Q(Z) 后：

3，在Q(Z) 下对上式取期望，Q(Z) 即为我们用来近似的分布：

4，等式左端P(X) 与Z无关，Q(Z) 对Z的积分为1;等式右端简单展开，得到：

经过上述处理，我们看看得到了什么：我们将左式化为ELBO（Evidence Lower Bound Objective）和KL 距离的和。我们不知道样本X的真实分布，但是客观真理是不会改变的，所以P(X) 和lnP(X) 都是未知的常量。等式的右端，ELBO是一个泛函，是Q的函数，由于KL距离是非负的，所以ELBO的上界就是lnP(X) 。我们的目标是最小化KL距离，但其中P(Z|X) 是难以得知的，但式中KL距离和ELBO是此消彼长的关系，这等价于最大化ELBO。当然，一次性就找出ELBO中最佳的Q是不现实的，相反是不断的调整这个分布的参数，使得最后收敛到目标后验概率上。

因此，我们的目标变为最大化ELBO：

$\ mathop {argmax} \ limits_Q \，\，\，\ int Q（Z）ln（P（X，Z））dZ- \ int Q（Z）ln（Q（Z））dZ$

框架给出来了，那么如何求解上述式子呢，我们这里给出三种解法：

古典方法（mean-field）
黑盒变分推断（BBVI）
重新参数化技巧

古典方法

$\ mathop {argmax} \ limits_Q \，\，\，\ int Q（Z）ln（P（X，Z））dZ- \ int Q（Z）ln（Q（Z））dZ$

变分推断的核心思想就是在关于Q的有约束的分布簇上最大化L(Q)。一个非常常用的变分学习的方法是加入一些限制使得Q是一个因子分布（也就平均场均值场方法）。

平均场（mean-field）

用电子来举例，每个电子受到其他电子的库仑相互作用，我们将所有其他电子对该电子的相互作用合并为一个有效场。利用有效场取代电子之间的库仑相互作用之后，每一个电子在一个有效场中运动，电子与电子之间的运动是独立的。同样的思想用在Q的假设上，变分分布Q(Z)可以通过参数和潜在变量的划分因式分解，比如将Z划分为Z1 ...... ZM。

$Q（Z）= \ prod \ limits_i ^ MQ（Z_i）$

代入到ELBO中：

$\ large \ int \ prod \ limits_i ^ MQ（Z_i）ln（P（X，Z））dZ- \ int \ prod \ limits_i ^ MQ（Z_i）\ sum_ {i} ^ {M} ln（Q（Z_i））DZ$

对第一项进行简化，

$\ large \ begin {align *} \ int \ prod \ limits_i ^ MQ（Z_i）ln（P（X，Z））dZ＆= \ int \ limits_ {Z_1} \ int \ limits_ {Z_2} ... \ int \ limits_ {Z_M} \ prod \ limits_ {i = 1} ^ MQ（Z_i）ln（P（X，Z））dZ_1dZ_2 ... dZ_M \\＆= \ int \ limits_ {Z_j} Q（Z_j）\ left （\ int \ limits_ {Z_1} ... \ int \ limits_ {Z_ {i \ neq j}} \ int \ limits_ {Z_M} \ prod \ limits_ {i = 1} ^ MQ（Z_i）ln（P（X ，Z））dZ_1 ... dZ_ {i \ neq j} dZ_M \ right）\\＆= \ int \ limits_ {Z_j} Q（Z_j）\ left（E _ {\ prod _ {i \ neq j} Q（ Z_i）} \ left [ln（P（X，Z））\ right] \ right）\ end {align *}$

既然 $Q（Z_i）$ 是独立的，那么就可以将积分式展开，同时 $Q（Z_j）$ 的积分项提出来，这便是前两行所表达的。到此为止，我们是不是可以将简化的这一项看成 $LN（P（X，Z））$ 在 $E _ {\ prod _ {i \ neq j} Q（Z_i）} \ left [ln（P（X，Z））\ right]$ 下的期望？所以我们可以将右端再简化为第三行的形式。

对第二项进行简化，

$\ large \ begin {align *} \ int \ prod \ limits_i ^ MQ（Z_i）\ sum_ {i} ^ {M} ln（Q（Z_i））dZ＆= \ int \ limits_ {Z_1} \ int \ limits_ { Z_2} ... \ int \ limits_ {Z_M} \ prod \ limits_ {i = 1} ^ MQ（Z_i）\ sum_ {i} ^ {M} ln（Q（Z_i））dZ_1dZ_2 ... dZ_M \\＆ = \ int \ limits_ {Z_1} ... \ int \ limits_ {Z_ {i \ neq j}} \ int \ limits_ {Z_M} \ prod \ limits_ {i = 1} ^ MQ（Z_i）\ left（ln（ Q（Z_1））+ ln（Q（Z_2））+ ... + ln（Q（Z_M））\ right）dZ_1 ... dZ_ {i \ neq j} dZ_M \\＆= \ int_ {Z_1} Q （Z_1）ln（Q（Z_1））dZ_1 + \ int_ {Z_2} Q（Z_2）ln（Q（Z_2））dZ_2 + ... + \ int_ {Z_1} Q（Z_M）ln（Q（Z_M））dZ_M \\＆= \ sum \ limits_ {i = 1} ^ M \ left（\ int_ {Z_i} Q（Z_i）ln（Q（Z_i））dZ_i \ right）\ end {align *}$

第二项的简化是怎么做的呢，将式子展开得到第二行，再展开分别进行积分，含 $LN（Q（Z_1））$ 的积分项可以将其他隐变量积掉，从而简化为第三行的形式。

合并简化后的两项，也就是将ELBO重新写为：

$\ large \ int \ limits_ {Z_j} Q（Z_j）\ left（E _ {\ prod _ {i \ neq j} Q（Z_i）} \ left [ln（P（X，Z））\ right] \ right） - \ sum \ limits_ {i = 1} ^ M \ left（\ int_ {Z_i} Q（Z_i）ln（Q（Z_i））dZ_i \ right）$

我们仔细端详一下这个式子，因为Q(Z)的各个成分是独立的，所以只看Q(Zj)的时候，第二项的Q的其他成分可以看成常量，不影响计算。而第一项中，再引入一个脑洞：

$\ LARGE E _ {\ prod _ {i \ neq j} Q（Z_i）} \ left [ln（P（X，Z））\ right] = ln（\ mathop {P} ^ \ sim（X，Z））$

为什么可以将这项期望标记成这样呢，~~我会在最后给出它简单的~~推理，不过现在有了这式后，我们又可以把ELBO重写了：

$\ large \ begin {align *} ELBO＆= \ int_ {Z_j} Q（Z_j）ln（\ mathop {P} ^ \ sim（X，Z））dZ_i- \ int_ {Z_j} Q（Z_j）ln（Q （Z_j））dZ_j + Const \\＆= -KL \ left（Q（Z_j）|| \ mathop {P} ^ \ sim（X，Z）\ right）+ Const \ end {align *}$

我们将ELBO重写通过将Q(Zj) 的成分展现出来，惊讶的发现这就是一个KL距离啊。固定其他Q(Zi) ，改变Q(Zj)，如果我们想最大化ELBO，那不就是要最小化这个KL距离嘛！从变分推断的角度来说，我们就是要用这个复杂的期望去近似Q(Zj) 。所以，我们的核心部分就出来了。

$\ LARGE E _ {\ prod _ {i \ neq j} Q（Z_i）} \ left [ln（P（X，Z））\ right] = ln（Q ^ *（Z_j））$

OK，最后简述一下优化步骤：

如图所示，固定Q(Zj)，在 $\ small \ prod _ {i \ neq j} Q（Z_i）$ （除了Q(Zj) 以外的）上，用 ln(P(X,Z)) 去更新Q(Zj)

$\ small \ left \ {\ begin {align}＆ln（Q ^ *（Z_1））= \ int ... \ int ln（P（X，Z））Q（Z_2）... Q（Z_M）dZ_2 ... dZ_M＆\ nonumber \\＆ln（Q ^ *（Z_2））= \ int ... \ int ln（P（X，Z））Q ^ *（Z_1）... Q（Z_M）dZ_1 ... dZ_M \ nonumber \\＆... \ nonumber \\＆ln（Q ^ *（Z_M））= \ int ... \ int ln（P（X，Z））Q ^ *（Z_1）。 ..Q ^ *（Z_ {M-1}）dZ_1 ... dZ_ {M-1} \ nonumber \ end {align} \ right。$

经过多次算法迭代，lnQ收敛于固定值，从而得到最大ELBO，进而确定所需KL散度与Q分布。

方法研究补充：条件mean-field就意味着断开了隐变量Z间的联系，也有一些工作来减少这部分gap，如auxiliary variables，hierarchical variational models (HVMs)。大体都是增加辅助变量，比如说还是先假设mean-field，但把变分参数 $\ THETA$ 看成变量，在之上加上新的先验 $Q（\峰; \拉姆达）$ 。

黑盒变分推断（BBVI）

$\ mathop {argmax} \ limits_Q \，\，\，\ int Q（Z）ln（P（X，Z））dZ- \ int Q（Z）ln（Q（Z））dZ$

假设Q的参数为 $\ THETA$ ，对 $\ THETA$ 求导，得到∇梯度：

$\begin{align*}\bigtriangledown ELBO & =\bigtriangledown\left ( \int Q(Z,\Theta ) ln\frac{P(X,Z)}{Q(Z,\Theta )}dZ\right )\\ & =\int \left (\bigtriangledown Q(Z,\Theta ) ln\frac{P(X,Z)}{Q(Z,\Theta )}\right )dZ\end{align*}$

~~我会在附录里证明这个式子的等价。~~

大牛们开了脑洞，把这个式子变为一个期望方程，期望方程长这样：

于是这个式子变为了：

$\large \begin{align*}\bigtriangledown ELBO & =\int \left ( \frac{\bigtriangledown Q(Z,\Theta )}{Q(Z,\Theta )} Q(Z,\Theta )ln\frac{P(X,Z)}{Q(Z,\Theta )}\right )dZ\\ & =\int \left (Q(Z,\Theta )\, \bigtriangledown lnQ(Z,\Theta ) ln\frac{P(X,Z)}{Q(Z,\Theta )}\right )dZ\end{align*}$

其中 $Q(Z,\Theta )$ 扮演了p(x)的地位。

于是∇ELBO变成一个求取期望的过程。实际工程中，解析求解该过程是很难的；不过既然是求期望，那么我们随机采样的话就能估计出一个期望值。期望看做加权平均，换到蒙特卡洛方法，那么就是根据 $Q(Z,\Theta )$ 的概率来进行采样，取出S个Zs值后求平均即为期望。那么有：

$\large \begin{align*}\bigtriangledown ELBO & =\frac{1}{S} \sum_{s=1}^{S}\left (\bigtriangledown lnQ(Z,\Theta ) ln\frac{P(X,Z)}{Q(Z,\Theta )}\right )\end{align*}$

然后就是采用梯度下降法了，依然是先求解i系列变量，固定其他系列变量的过程：

$\large \Theta _{i}^{t+1}=\Theta _{i}^{t}+\mu \bigtriangledown _{\Theta _{i}}ELBO$

为了求解过程快速收敛、稳定，可以使用ada下降法等方法。

至于先验信息是怎么使用的。例如我们把w,b看做Z，那么改写为p(x|w,b)=p(X|Z)，然后乘以p(Z)得到p(X,Z)代入求解式中。

方法研究补充：该方法直接后果是variance太大，从而导致收敛极慢。目前已有工作Rao-Blackwellization，O-BBVI。

reparameterization tricks

$\mathop{argmax}\limits_Q\, \, \, \int Q(Z)ln(P(X,Z))dZ-\int Q(Z)ln(Q(Z))dZ$

首先，我们说说什么是重新参数化技巧，其主题思想较为简单，如果我们能把一个复杂变量用一个标准变量来表示，比如 $\large z=f(\varepsilon )$ ，其中 $\epsilon\sim\mathcal{N}(0,1)$ ，那么我们就可以用这个变量取代z。举个例子，假如q (z;θ)是个复杂分布 $\large N(\mu ,RR^\top )$ ，现在我们想将z再参数化，用q(ε)去表示q(z;θ)，即 $\epsilon\sim\mathcal{N}(0,1)$ ，用一个one-liners（简单理解为一行变换）表示从ε到z的联系，令f(ε)为μ+Rε。

这样做会带来什么，假如我们要依据Q(z;θ) 采样，那么现在就可以根据Q(ε) 采样，用f(ε;θ)进行代替。这样做的好处在哪? 我们从Q(z;θ)中采样，然后再利用采样处的梯度修正Q，这样两次的误差就会叠加，这也是用黑盒变分推断方差大的原因。但做了这个重新参数化，我们只需要从一个分布非常稳定的random seed中采样，比如N(0,1)所以noise小得多。

好，现在我们假设有 $\large Q(f _\Theta(\varepsilon ))=Q (z;\Theta)$ ，ε称为一个random seed， $\large f_\Theta$ 是一个被参数化的光滑函数族，比如一个DNN。有了这个技术，我们便有：

$\large \int g(z)Q(z;\Theta )dz = E_\varepsilon \left ( g(f_\Theta (\varepsilon )) \right )$

~~上式的证明会在附录中给出，~~接下来对θ求梯度便有：

$\large \begin{align*} \bigtriangledown _\Theta E_{Q(z;\Theta )} \left ( g(z) \right )=\bigtriangledown _\Theta \int g(z)Q(z;\Theta )dz=&E_\varepsilon \left (\bigtriangledown _\Theta g(f_\Theta (\varepsilon )) \right )\\ = & E_\varepsilon \left ( g^{'} (f_\Theta (\varepsilon ))\bigtriangledown _\Theta f_\Theta (\varepsilon ) \right )\end{align*}$

如果它是DNN决定的，就可以反向传播。对 $\epsilon$ 采样( $\epsilon\sim\mathcal{N}(0,1)$ )，方差就小了很多。回到刚才的例子，我们假设Z满足的分布是一个正态分布，它的均值和方差由两个DNN算出来，那么我们就可以很简单的得到 $\large f _\Theta(\varepsilon )=\mu _\Theta+\varepsilon R_\Theta$ ，于是我们便可以对参数进行优化 $\large \bigtriangledown _\Theta f _\Theta(\varepsilon )$ 。

通过蒙特卡洛积分计算期望，得到梯度的无偏估计量

$\大E_ \ varepsilon \ left（\ bigtriangledown _ \ Theta g（f_ \ Theta（\ varepsilon））\ right）= \ frac {1} {S} \ sum \ limits_ {s = 1} ^ S \ bigtriangledown _ \ Theta g（f_ \ Theta（\ varepsilon ^ {\ left（s \ right）}）），\ varepsilon ^ {\ left（s \ right）} \ sim q（\ varepsilon）$

这里面所用到的假设很简单：

1，连续随机变量z和一个已知的单行变换

2，较为容易的从base distribution或者random seed中生成样本ε

3，可微函数f

哪些对 $\大Q（Z; \ Theta）$ 我们可以用这样的变换呢？

1，易处理的逆CDF

在这种情况下，变换 $\大f_ \ Theta$ 设为 $\大Q（Z; \ Theta）$ 的逆CDF。如：指数(Exponential)，柯西(Cauchy)，逻辑(Logistic)，瑞利(Rayleigh)，帕累托(Pareto)，威布尔(Weibull)，倒数(Reciprocal)，贡波茨(Gompertz)，甘伯尔(Gumbel)和埃尔朗(Erlang)分布。

2，“location-scale”式分布

类似高斯分布的例子，选取标准分布ε作为辅助变量（此时location= 0，scale= 1），于是 $\ large f_ \ Theta \ left（\ varepsilon \ right）= location + scale * \ varepsilon$ 。同样的有：拉普拉斯(Laplace)，椭圆(Elliptical)，学生t(Student’s t)，逻辑(Logistic)，均匀(Uniform)，三角形(Triangular)和高斯(Gaussian)分布。

3，组合

这是将随机变量表示为辅助变量的不同变换，比如说将对数正态表示为正态分布变量的幂指数。如：Log-Normal（对数正态分布，正态分布变量的求幂），Gamma（伽马，指数分布变量的和），Dirichlet（狄利克雷，卡方变量的加权和），贝塔，卡方，和F分布。

我们这里给出常见的转换。

最后，我们再来看看这是如何运用到ELBO中的

$\大ELBO（\ Theta）= E_ \ varepsilon \ left（ln（P（X，f_ \ Theta（\ varepsilon））） - ln（Q_ \ Theta（f_ \ Theta（\ varepsilon）））\ right）$

$\ large \ bigtriangledown _ \ Theta ELBO（\ Theta）= E_ \ varepsilon \ left [\ bigtriangledown _ \ Theta \ left（ln（P（X，f_ \ Theta（\ varepsilon））） - ln（Q_ \ Theta（f_） \ Theta（\ varepsilon）））\ right）\ right]$

方法研究补充：已被证明可更好解决variance问题，缺陷是无法处理离散分布，目前已有Gumbel-Softmax[1] [2]可以很好解决这个问题，不过能变换的分布有限，但也有normalizing flows （NFs）来处理了，简单说就是做多层函数变换（ $z = f_k \ circ \ cdots \ circ f_1（\ epsilon）$ ），具体可参阅文章。

附录

证明一：

$\ large E _ {\ prod _ {i \ neq j} Q（Z_i）} \ left [ln（P（X，Z））\ right] = ln \，exp \ left \ {E _ {\ prod _ {i \ neq j} Q（Z_i）} \ left [ln（P（X，Z））\ right] \ right \} = ln（\ mathop {P} ^ \ sim（X，Z））$

可见，在面对非正态分布时，计算量很大。

证明二：

$\ begin {align *} \ bigtriangledown ELBO＆= \ bigtriangledown \ left（\ int Q（Z，\ Theta）ln \ frac {P（X，Z）} {Q（Z，\ Theta）} dZ \ right）\ \＆= \ int \ left（\ bigtriangledown Q（Z，\ Theta）ln \ frac {P（X，Z）} {Q（Z，\ Theta）} \ right）dZ + \ int \ left（Q（Z），\ Theta）\ bigtriangledown ln \ frac {P（X，Z）} {Q（Z，\ Theta）} \ right）dZ \ end {align *}$

$\ begin {align *} \ int \ left（Q（Z，\ Theta）\ bigtriangledown ln \ frac {P（X，Z）} {Q（Z，\ Theta）} \ right）dZ＆= \ int \ left （Q（Z，\ Theta）\ bigtriangledown lnP（X，Z）-Q（Z，\ Theta）\ frac {\ bigtriangledown Q（Z，\ Theta）} {Q（Z，\ Theta）} \ right）dZ \\＆= 0- \ bigtriangledown \ int Q（Z，\ Theta）dZ \\＆= - \ bigtriangledown 1 \\＆= 0 \ end {align *}$

证明三：

$\ large \ begin {align *} \ bigtriangledown _ \ Theta E_ {Q（z; \ Theta）} \ left（g（z）\ right）＆= \ bigtriangledown _ \ Theta \ int g（z）Q（z; \ theta）dz \\＆= \ bigtriangledown _ \ Theta \ int g（z）Q（\ varepsilon）d \ varepsilon \\＆= \ bigtriangledown _ \ Theta \ int g（f_ \ Theta（\ varepsilon））Q（ \ varepsilon）d \ varepsilon \\＆= \ bigtriangledown _ \ Theta E_ \ varepsilon \ left（g（f_ \ Theta（\ varepsilon））\ right）\\＆= E_ \ varepsilon \ left（\ bigtriangledown _ \ Theta g （f_ \ Theta（\ varepsilon））\ right）\\ \ end {align *}$