变分推断(Variational Inference,)与证明下界(Evidence Lower Bound, ELBO)

最新推荐文章于 2025-04-28 01:33:48 发布

小柳技术日志

最新推荐文章于 2025-04-28 01:33:48 发布

阅读量2.1k

点赞数 25

文章标签：深度学习

本文链接：https://blog.csdn.net/as949179700/article/details/138399624

版权

一入生成深似海，其中有很多晦涩难懂的数学公式和原理，对于数学基础薄弱的我，实在有些不友好。因此准备不定期的输出，自己所学理论与实践。既是巩固，也方便笔者自己回忆与复习，同时也希望能够帮助同样在学习中的你。往后文章都会先发布于微信公众号：深度学习指南。欢迎关注喔～

最佳排版请前往：公众号文章地址

什么是变分推断？

假设我们现在要做一个生成模型，我们只有训练集的数据，要求数据的分布p，我们当然无法直接求。因此一个可行的方法是，找一个容易表达和求解的分布q，只要p和q的分布差异足够小，我们就可以将q作为p的近似分布了，成为我们的输出结果。而求解这个过程的方法，就叫做变分推断。

这样的一个思路，我们就可以把一个求分布问题，转变成了“缩小距离”的优化问题。

变分推断与证据下界

现在，我们定义一下问题。在机器学习的生成式里，我们没有办法直接显式的写出数据对应的分布表达式，因此采取的办法是引入带有隐变量的概率分布。即

$\int p(z)p(x|z)dz$

这个方法的本质是什么？其实就是我们希望z~q，然后有一个神经网络计算$f_{\theta}(z) $，这个计算的结果就是$ x $，即$ xp(.|z) $。这意味着，我们要定义$ (X,Z)$的联合分布。

上述积分，我们没法直接求，因为我们不知道 $q (x ∣ z)$ 到底是个什么东西，神经网络只是万能的函数拟合器，没法直接拟合分布。因此，这里转向贝叶斯的思路，即

$\frac{p(z)p(x|z)}{p(z|x)}$

所以我们要想求 $p (x)$ ，我们仅需求 $p (z ∣ x)$ ，因为分子项 $q (z)$ 是我们自己定义的先验分布，一般是一个高斯分布。 $p (x ∣ z)$ 是一个我们自己定义的神经网络。因此求分布 $p (x)$ 的问题就转变成了求解后验分布 $p (z ∣ x)$ 。

但其实后验分布 $p (z ∣ x)$ 并不好搞，它的计算挑战在于计算分母 $p (x)$ , 它是对所有可能的z的值的积分，这在 $z$ 是高纬或连续的情况下，计算上是不可行的，比如若 $z$ 是一个10维的连续变量，每个维度上我们需要对1000个点做积分，那么我们总共需要计算 $1000^{10}$ 个点！这根本无法接受。

因此到这里我们终于可以引入本篇文章的重点：变分推断方法，寻找一个近似分布 $q^*$ (z)来近似替代 $p (z ∣ x)$ ，即

$q^*(z) = \arg\min_{q(z)\in Q}{L(q(z),p(z|x))}$

其中 $Q$ 表示空间里的一个概率分布集合，我们需要在 $Q$ 中找一个最优的替代概率分布 $q^*(z)$ ，要求这个分布是好求解，并且是整个 $Q$ 中离 $p (z ∣ x)$ 最近的分布。 $L$ 表示此空间上的一种距离度量函数。

如果我们能找到 $q^*(z)$ ，那么我们就可以用 $q^*(z)$ 去估计原来不好计算的

在这里，一般采用的距离度量工具是KL散度，那这里的变分推断就是变分贝叶斯推断（Variational Bayes， VB）（VB是变分推断里的特例）。所以我们的目标就变成了

$q^*(z) = \arg\min_{q(z)\in Q}{KL(q(z)||p(z|x))} \tag{1}$

单独将KL项展开

$\tag{2} {KL(q(z)||p(z|x))} = \int q(z) \log \frac{q(z)}{p(z|x)} dz$

根据期望的公式，我们可以得到

$\tag{3} {KL(q(z)||p(z|x))} = \int q(z) \log \frac{q(z)}{p(z|x)} dz = \mathbb{E}_q (\log q(z)) - \mathbb{E}_q (\log p(z|x))$

将最后一项的期望，根据条件概率公式展开

$\tag{4} {KL(q(z)||p(z|x))} = \mathbb{E}_q (\log q(z)) - \mathbb{E}_q (\log p(x,z)) + \log p(x)$

其中最后一项之所以为 $\log p(x)$ ，是因为 $\mathbb{E}_q(\log p(x))$ 与 $z$ 无关，所以期望是一个常数。

推导到这里，我们已经得到了 $- E L BO$ ，即 $\mathbb{E}_q (\log q(z)) - \mathbb{E}_q (\log p(x,z))$ ，注意是负的喔。

所以关于 $q (z)$ 的 $E L BO (q)$ 的表达式为

$\tag{5}ELBO(q) = \mathbb{E}_q (\log p(x,z)) - \mathbb{E}_q (\log q(z))$

所以我们可以得到

$\tag{6} \log p(x)= ELBO(q) + KL(q(z)||p(z|x))$

因为等式的左边是一个常数，而还记得我们式子(1)的目标吗？是要最小化KL项，而KL散度总是大于等于0，因此最终我们要做的就是最大化 $E L BO (q)$ ，就能达成我们的目标，即

$\tag{7} q^*(z) = \arg\min_{q(z)\in Q}{KL(q(z)||p(z|x))} = \arg\max_{q(z) \in Q} ELBO(q)$

到这里，我们可以总结说，想要找到后验分布 $p (z ∣ x)$ 最相近的分布 $q^*(z)$ ，只要最大化 $q (z)$ 的ELBO就可以了。另外，到这里也知晓为什么ELBO会叫证明下界(Evidence Lower Bound)，是因为KL散度总是大于等于0，所以有了下列的不等式

$\tag{8} \log p(x)= ELBO(q) + KL(q(z)||p(z|x)) >= ELBO(q)$

所以ELBO(q)其实就是数据Evidence $\log p(x)$ 的下界。

最后：在实际计算中， $E L BO$ 一般表示为以下形式计算

$\begin{aligned} ELBO(q) &= \mathbb{E}_q(\log p(x,z)) - \mathbb{E}_q(\log q(z)) \\ &= \mathbb{E}_q(\log p(x|z)p(z)) - \mathbb{E}_q(\log q(z)) \\ &= \mathbb{E}_q(\log p(x|z)) + \mathbb{E}_q(\log p(z)) - \mathbb{E}_q(\log q(z)) \\ &= \mathbb{E}_q(\log p(x|z)) + \int q(z)\log \frac{p(z)}{q(z)}dz\\ &= \mathbb{E}_q(\log p(x|z)) - KL(q(z)||p(z) \end{aligned}$