变分推断（variational inference）

weixin_40248634

已于 2023-07-11 14:25:30 修改

阅读量2.9k

点赞数 1

分类专栏： prml 教程文章标签：算法

于 2021-06-13 17:40:42 首次发布

本文链接：https://blog.csdn.net/weixin_40248634/article/details/117879006

版权

教程同时被 2 个专栏收录

60 篇文章

订阅专栏

prml

1 篇文章

订阅专栏

变分推断是解决复杂概率模型后验分布求解难题的一种方法。它通过寻找一个近似分布q(Z)来逼近条件分布p(Z|X)，目标是最小化KL散度。ELOB（证据下界）是评估这种逼近质量的下界，通过Jensen's不等式推导得出。平均场理论假设联合分布可分解为独立分量，简化了问题。最优闭合解可通过迭代更新每个潜在变量的分布求得，确保每次迭代都是凸优化。该过程在PRML和相关教程中有详细阐述，并与扩散模型有一定联系。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

变分推断

总体解释

总体解释

把所有潜在变量和参数组成的集合记作 $\mathbf Z=\{\mathbf Z_1,\mathbf Z_2,...,\mathbf Z_N\}$ .观测变量的集合记作 $\mathbf X$ .

一般来说条件分布(后验分布) $p(\mathbf Z|\mathbf X)=p(\mathbf Z, \mathbf X)/P( \mathbf X)$ 比较难求，因为边缘分布 $\mathbf X)$ 需要从联合分布 $p(\mathbf Z, \mathbf X)$ 进行积分，所以变分推断就是使用一个分布 $q(\mathbf Z)$ 来直接逼近这个条件分布，逼近的度量采用KL 散度，即目标就是优化函数 $q(\mathbf Z)$ ，使得 $KL(q(\mathbf Z)||p(\mathbf Z|\mathbf X))$ 最小。一般正常情况下，优化变量是一个向量时，只要使用梯度（微分）为0，或者使用KTT等优化方法就可以得到最优或者是次优解。当这里，因为优化的是一个函数，所以需要求所谓的变分，而不是微分。进一步，为了求解空间小一些，使用平均场理论，假设联合分布 $q(\mathbf Z)$ 是通过每个独立分量的分布联合的，也就化成了连乘。(https://zhuanlan.zhihu.com/p/91640654)

ELOB 证据下界

想要使用变分推断，必须要得到ELOB的表达式，
有两种方法可以推出ELOB(https://xyang35.github.io/2017/04/14/variational-lower-bound/)，

可以直接通过对KL散度的变形得到，这里要使用 $q (Z)$ 作为积分，因为proposed 的分布 $q (Z)$ 一般会简单，比如采用高斯或者伯努利，所以用 $q (Z)$ 来算期望会更容易。

在这里插入图片描述
由于 $KL\ge 0$ , 所以 $L$ 就是 $l o g p (X)$ 的下界，也就是lower bound 的来源了。

可以使用Jensen’s inequality 进行推导
从观测变量X的边缘分布出发，进行配凑

也可以得到ELOB energy functional $L=E_q[\log\frac{p(X,Z)}{q(Z)}]$

平均场推断

得到ELOB 的表达式L之后，后面就变成了变分优化问题，即找个函数 $q (Z)$ , 使得L最大
$max_q L=max_q E_q[\log\frac{p(X,Z)}{q(Z)}]$

如果不指定 $q (Z)$ 所在的分布家族（e.g.高斯分布), 直接搜索 $q$ 是很困难的，所以如果使用最简单的概率图模型，即没有边的概率图，in other words, $Z=(z_1,...,z_n)$ 都相互独立，但不要求同分布。
这就有了很多VAE 中的公式，上来就是
$q(Z)=\Pi_i q_i(z_i)$
将其代入到L中，令 $\tilde p(x)=p(X,Z)$ 。
在这里插入图片描述

最后得到每个分量解析表达式,j=1,2,…m=n

得到最后的分布
$q(Z)=\Pi_i q_i(z_i)$

前面的最大化问题会有最优解是由凸性保证。

最后推断的时候就用 $q (Z)$ 来替代 $p (Z ∣ X)$ 了

---------------另一解释--------------------------------------------------------------

对观测值的边缘分布进行分解

在这里插入图片描述这里前一项 $\mathcal L(q)$ 为Evidence lower Bound(ELOB)。第二项为KL散度。
下面的核心是对ELOB objective function 求上界。当其越大，KL散度越小，代表拟合的越好，当KL=0 时，表示两个分布完全相等。
这与我们关于EM的讨论的唯一的区别是参数向量不再出现，因为参数现在是随机变量，被整合到了 $\mathbf Z$ 中.

分解概率分布(平均场理论)

为了容易得到迭代表达式，这里假设联合分布可以分解为以下：
在这里插入图片描述其中 $q_i(\mathbf Z_i)$ 不要求相同分布， $i = 1, 2, ..., N$ . 变分推断的这个分解的形式对应于物理学中的一个近似框架，叫做平均场理论（mean field theory）. 将上式代入到（10.3）, $q_j(\mathbf Z_j)$ 记作 $q_j$ .

在这里插入图片描述第二个等式，只考虑第 $j$ 个分量的显式形式，第一部分是将多重积分的 $q_j$ 提了出来，第二部分是将除了 $j$ 以外的元素都放在const 。

Mean field 下的最优closed solution:

通过Evidence lower Bound(ELOB) 目标函数的最小化来间接获得最优解的表达式 (https://xyang35.github.io/2017/04/14/variational-lower-bound/)
$\operatorname{ln}q^*_j(\mathbf Z_j)=\mathbb E_{q_1(\mathbf Z_1),q_2(\mathbf Z_2),\cdots,q_N(\mathbf Z_N)/q_j(\mathbf Z_j)}[\text{ln}p(\mathbf X, \mathbf Z)]+const,\\ =\int_{Z_1,Z_2,...,Z_N/Z_j}\text{ln}p(\mathbf {X,Z})\prod_{i\neq j}(q_i(\mathbf Z_i)d\mathbf Z_i), \quad j=1,2,3,... ,N$
迭代更新 $q^*_j(\mathbf Z_j)$ ,从 $j = 1$ 开始，得到 $q^*_1(\mathbf Z_1)$ 代入到式子中用于更新 $q^*_2(\mathbf Z_2)$ ，直到收敛（算法保证收敛，因为 $-\operatorname{ln}q^*_j(\mathbf Z_j)$ 关于每个因子 $q_i(\mathbf Z_i)$ 是一个凸函数, 最大化上凸（凹）即最下化下凸（凸））。
迭代完成后，通过下式即可以得到逼近的分布表达式。
在这里插入图片描述