变分推断中的ELBO(证据下界)

最新推荐文章于 2025-03-05 14:37:03 发布

置顶 HFUT_qianyang

最新推荐文章于 2025-03-05 14:37:03 发布

阅读量5.6w

点赞数 97

CC 4.0 BY-SA版权

分类专栏：计算机顶会及顶刊数据挖掘算法贝叶斯相关模型及程序基础机器学习算法理论与编程梳理

本文链接：https://blog.csdn.net/qy20115549/article/details/93074519

数据挖掘算法同时被 3 个专栏收录

68 篇文章

订阅专栏

贝叶斯相关模型及程序

43 篇文章

订阅专栏

计算机顶会及顶刊

31 篇文章

订阅专栏

本文作者：合肥工业大学电子商务研究所钱洋 email：1563178220@qq.com 。
内容可能有不到之处，欢迎交流。

未经本人允许禁止转载。

变分推断简介

变分推理的目标是近似潜在变量(latent variables)在观测变量（observed variables）下的条件概率。解决该问题，需要使用优化方法。在变分推断中，需要使用到的一个重要理论，是平均场理论，读者可以参考我的另外一篇博客：
https://qianyang-hfut.blog.csdn.net/article/details/86644192

变分推断等价于最小化KL散度。
在这里插入图片描述
其中， $q (z)$ 为近似分布， $p (z ∣ x)$ 为所要求的的后验概率分布。这里之所以对 $p (z ∣ x)$ 进行近似，是因为其很难计算，在下一小节将对其进行讨论。

KL散度可以表示为：
在这里插入图片描述
其中， $Q (x)$ 为要近似的分布， $P (x ∣ D)$ 为参数 $x$ 的条件概率分布。

这个公式可以继续化简，读者可以参考我的另外一篇博客：
https://qianyang-hfut.blog.csdn.net/article/details/86644192
或者参考：A Tutorial on Variational Bayesian Inference

化简后的结果为：
在这里插入图片描述
其中， $l n P (D)$ 为log似然， $L$ 为log似然的下界。使得KL散度最小，相当于最大化 $L$ 。如下为三者之间的关系：

ELBO

ELBO，全称为 Evidence Lower Bound，即证据下界。这里的证据指数据或可观测变量的概率密度。

假设 $x=x_{1:n}$ 表示一系列可观测数据集， $z=z_{1:m}$ 为一系列隐变量(latent variables)。则可用 $p (z, x)$ 表示联合概率， $p (z ∣ x)$ 为条件概率， $p (x)$ 为证据。

那么，贝叶斯推理需要求解的就是条件概率，即：
在这里插入图片描述
然而，对很多模型而言，计算 $p (x)$ 是很困难的，即：

因此，无法直接计算 $p (z ∣ x)$ 。那么，这里变分推断就来了。在上一节中已提及，变分推断的目标是找到一个概率密度函数 $q (z)$ 来近似 $p (z ∣ x)$ *，要得到最佳的 $q (z)$ 必须优化：
在这里插入图片描述
其中，KL散度可以表示为：

由于KL散度大于0，进而我们可以求得：
$logp(x)\geq E\left [ logp(z|x) \right ] - E\left [ logq(z) \right ]$
这里终于知道为什么叫证据下界了吧，即公式的左边的证据的对数形式，右边为其下界。因此，我们有：
在这里插入图片描述
在使用变分推断时，首先需要计算的便是ELBO。从上面的公式可以看到，要计算ELBO，需要写出联合概率密度 $p (z, x)$ 和 $q (z)$ 。

在写出这两个式子之后，带入ELBO公式，分别求对数。之后，分别求期望。在期望计算完之后，针对具体的变分参数，求偏导，并令偏导为0，即可得到变分参数的更新公式。

在实际公式推导过程中，关键点就在于如何求期望。其计算期望往往需要用到指数分布族的性质，即可以将期望计算转化成求导计算。关于指数分布族的介绍读者可以参考我的另外一篇博客：
https://qianyang-hfut.blog.csdn.net/article/details/87247363

案例

高斯混合模型

第一个案例为，高斯混合模型。详细的介绍可参考我的另外一篇博客，该博客也提供了Python代码：
https://qianyang-hfut.blog.csdn.net/article/details/86694325
其模型的生成过程为：
在这里插入图片描述

LDA

在LDA模型中，需要计算下界：
在这里插入图片描述
其中，

关于联合概率分布可以表示为：

基于平均场原理：

写出这两个式子之后，可以求其期望。这个中间步骤还是很繁琐的。最后，可以得到变分参数的更新公式：

参考文献

[1] Blei D M, Kucukelbir A, McAuliffe J D. Variational inference: A review for statisticians[J]. Journal of the American Statistical Association, 2017, 112(518): 859-877.
[2]Kurihara K, Welling M, Teh Y W. Collapsed Variational Dirichlet Process Mixture Models[C]//IJCAI. 2007, 7: 2796-2801.