变分推断（Variational Inference）解析

BUAA～冬之恋

已于 2022-12-08 10:33:01 修改

阅读量5.1k

点赞数 15

分类专栏：机器学习算法文章标签：概率论算法

于 2022-12-01 20:59:33 首次发布

本文链接：https://blog.csdn.net/u013602059/article/details/128133379

版权

变分推断是解决贝叶斯模型中后验概率计算困难的问题，通过找到近似分布q(z)来代替复杂的后验概率p(z|x)。文章介绍了证据下界（ELBO）的概念及其在优化过程中的作用，以及如何通过平均场理论进行变分推断。此外，还探讨了基于随机梯度的变分推断方法，包括蒙特卡洛采样和重参数化技巧，用于解决高方差问题。

摘要由CSDN通过智能技术生成

一、什么是变分推断

假设在一个贝叶斯模型中， $x$ 为一组观测变量， $z$ 为一组隐变量（参数也看做随机变量，包含在 $z$ 中），则推断问题为计算后验概率密度 $P = (z ∣ x)$ 。根据贝叶斯公式，有：
$p(z|x)=\frac{p(x,z)}{p(x)}=\frac{p(x,z)}{\int p(x,z)dz}$
但是在实际应用中，可能由于积分没有闭式解，或者是指数级的计算复杂度等原因，导致计算上面公式中的积分往往是不可行的。变分推断就是用来解决这个问题的。

变分推断是变分法在推断问题中的应用，既然无法直接求得后验概率密度 $p (z ∣ x)$ ，那我们可以寻找一个简单的分布 $q^*(z)$ 来近似后验概率密度 $p (z ∣ x)$ ，这就是变分推断的思想。借此，我们将推断问题转换为一个泛函优化问题：
$q^*(z)=\arg\min_{q(z)\in Q}KL(q(z)||p(z|x))\tag{1}$
其中 $Q$ 为候选的概率分布族。但是又出现了一个新的问题：我们已经知道后验概率密度 $p (z ∣ x)$ 难以计算，所以上式中的KL散度本身也是无法计算的！这时，需要借助于证据下界ELBO。

ELBO

ELBO，全称为 Evidence Lower Bound，即证据下界。这里的证据指数据或可观测变量的概率密度。

假设 $x=x_{1:n}$ 表示一系列可观测数据集， $z=z_{1:m}$ 为一系列隐变量(latent variables)。则可用 $p (z, x)$ 表示联合概率， $p (z ∣ x)$ 为条件概率， $p (x)$ 为证据。

那么，贝叶斯推理需要求解的就是条件概率，即： $p(z|x)=\frac{p(x,z)}{p(x)}$
(1)式中的KL散度可以表示为 $KL(q(z)||p(z|x))=\int q(z)\log\frac{q(z)}{p(z|x)}dz$ 其中， $x$ 为可观测数据集， $z$ 为未知变量，下面将公式继续变形：
$\begin{aligned}\int q(z)\log\frac{q(z)}{p(z|x)}dz&=-\int q(z)\log\frac{p(z|x)}{q(z)}dz\\&=-\int q(z)\log\frac{p(x,z)}{q(z)p(x)}dz\\&=-\int q(z)\log p(x,z)dz+\int q(z)\log q(z)dz+\int q(z)\log p(x)dz\end{aligned}$ 其中， $\int q(z)dz=1$ 进而可以转化成： $=-\int q(z)\log p(x,z)dz+\int q(z)\log q(z)dz+\log p(x)$ 令 $L(q(z))=\int q(z)\log p(x,z)dz-\int q(z)\log q(z)dz$ ，
则有 $KL(q(z)||p(z|x))=-L(q(z))+\log p(x)$ 从这个公式可以发现， $\log p(x)$ 不涉及参数（数据似然），因此在最小化 $K L (q (z) ∣ ∣ p (z ∣ x))$ 时可以忽略。那么，最小化 $K L (q (z) ∣ ∣ p (z ∣ x))$ 便转化成了最大化 $L (q (z))$ 。

因为 $KL(q(z)||p(z|x))\geq 0$ ，即： $-L(q(z))+\log p(x)\geq 0$ 进而可以得到： $\log p(x)\geq L(q(z))$ 因此，可以将 $L (q (z))$ 堪称 $\log p(x)$ 的下界，这个下界也称之为ELBO（evidence lower bound），那么最小化 $K L (q (z) ∣ ∣ p (z ∣ x))$ ，可以看成最大化下界的问题。

另外，从公式中可以看到，KL散度是 $L (q (z))$ 与 $\log p(x)$ 的误差，当然误差越小越好。

根据以上结果，最新的目标函数转化成了 $\begin{aligned}q^*(z)&=\arg\max_{q(z)\in Q}L(q(z))\\&=\arg\max_{q(z)\in Q}\underbrace{\int_z q(z)\log p(x,z)dz}_{(a)}-\underbrace{\int_z q(z)\log q(z)dz}_{(b)}\tag{2}\end{aligned}$ 至此，我们已经解决了KL散度无法求解的问题，将泛函优化问题转换为寻找一个简单分布 $q^*(z)$ 来最大化证据下界 $L (q (z))$ 。

二、基于平均场理论的变分推断

在变分推断中，候选分布族 $Q$ 的复杂性决定了优化问题的复杂性。一个通常的选择是平均场分布族，即 $z$ 可以拆分成多组相互独立的变量，有： $q(z)=\prod_{i=1}^Mq_i(z_i)\tag{3}$ 其中 $z_i$ 是隐变量的子集，可以是单变量，也可以是一组多元变量。

下面我们分布(3)把将代入(2)中的(a)和(b)，看看 $L (q (z))$ 最后的模样，其中假设我们想先求 $q_j(z_j)$ ，将其它组的 $q_{\setminus j}(z_{\setminus j})$ 当作常量：

2.1、求解(a)

我们首先求解(a)：

最低0.47元/天解锁文章

BUAA～冬之恋

关注

15
点赞
踩
60

收藏

觉得还不错? 一键收藏
3
评论
变分推断（Variational Inference）解析

假设在一个贝叶斯模型中，xxx为一组观测变量，zzz为一组隐变量（参数也看做随机变量，包含在zzz中），则推断问题为计算后验概率密度P=(z∣x)P=(z|x)P=(z∣x)。根据贝叶斯公式，有：p(z∣x)=p(x,z)p(x)=p(x,z)∫p(x,z)dzp(z|x)=\frac{p(x,z)}{p(x)}=\frac{p(x,z)}{\int p(x,z)dz}p(z∣x)=p(x)p(x,z)=∫p(x,z)dzp(x,z)但是在实际应用中，可能由于积分没有闭式解，或者是指数级的计算复杂度
复制链接

扫一扫

专栏目录