变分推断（变分贝叶斯）

XI-C-Li

已于 2023-08-08 22:26:39 修改

阅读量609

点赞数 1

分类专栏：概率图模型文章标签：算法机器学习概率论人工智能

于 2023-08-08 22:26:14 首次发布

本文链接：https://blog.csdn.net/m0_58581487/article/details/132139161

版权

概率图模型专栏收录该内容

3 篇文章 1 订阅

订阅专栏

泛涵与变分法

函数通常可以表示为 $y=f(x)$ ，指自变量 $x$ 到因变量 $y$ 的映射关系。而泛函可以表示为 $y=F(f(x))$ ，表示为函数的函数到一实数的映射关系，称 $F(f(x))$ 为 $f(x)$ 的泛函。微积分的方法用于求函数的极值，变分法则是用于求使得泛函 $F(f(x))$ 取得极值的函数 $f(x)$ 。常见的泛函是熵， $-\sum_{x\in X}p(x)\log{p(x)}$ ，其中， $p(x)$ 为一离散随机变量的概率密度函数。变分法则用于解决最大熵问题，寻找一个概率分布，使得这个概率分布的熵最大。泛函和变分法在贝叶斯模型里也有应用。

变分推断

假设在一个贝叶斯模型中， $\boldsymbol{\mathbf{}x}$ 为一组观测变量， $\mathbf{z}$ 为一组隐变量，参数也看作随机变量，包含于 $\mathbf{z}$ 中，一个最重要的问题就是计算后验概率，即条件概率 $p(\mathbf{z}|\mathbf{x})$ 。

$\displaystyle p(\mathbf{z}|\mathbf{x}) = \frac{p(\mathbf{x},\mathbf{z})}{p(\mathbf{x})}=\frac{p(\mathbf{x},\mathbf{z})}{\int _zp(\mathbf{x},\mathbf{z})dz}$

在GMM中， $p(\mathbf{z}|\mathbf{x})$ 还算比较好计算，隐变量是一维离散变量，

$\displaystyle p(z^{(n)}|x^{(n)};\theta_t) = \frac{p_{z^{(n)}}^{t}N(x^{(n)};\mu_{z^{(n)}}^{t},\sigma_{z^{(n)}}^{t})}{\sum_{k=1}^{K}p_{k}^{t}N(x^{(n)};\mu_{k}^{t},\sigma_{k}^{t})}$

其中，上标为 $t$ 的参数均为之前一步中求得的参数，是已知的，详情可见笔者的上一篇文章GMM高斯混合模型。

如果隐变量是连续或高维的，可能达到指数级的计算复杂度。这时候就需要使用变分推断的方法去近似条件概率 $p(\mathbf{z}|\mathbf{x})$ 。变分推断是变分法在推断问题中的应用，寻找一个简单分布 $q*(\mathbf{z})$ 来近似 $p(\mathbf{z}|\mathbf{x})$ ，可以写成一个泛函优化的问题，即求使得泛函取极值的函数。

$q^*(\mathbf{z}) = \underset{q(\mathbf{z})\in \mathbb{Q} }{argmin}KL(q(\mathbf{z})||p(\mathbf{z}|\mathbf{x}))$

其中 $\mathbb{Q}$ 是候选的概率分布族，在这个式子中，又涉及到了 $p(\mathbf{z}|\mathbf{x})$ 的求解问题，这不兜了一个圈子回来了吗？不急，这个式子只是一个基本思想，接下来需要将其转换为好求解的式子。在笔者的EM算法及公式推导这篇文章中，已经证明了

$\begin{aligned} \displaystyle \log{p(\mathbf{x})} &= \int_{\mathbf{z}}q(\mathbf{z})log\frac{p(\mathbf{x},\mathbf{z})}{q(\mathbf{z})}d\mathbf{z}+KL(q(\mathbf{z})||p(\mathbf{z}|\mathbf{x}))\\ &=ELBO(q,\mathbf{x})+KL(q(\mathbf{z})||p(\mathbf{z}|\mathbf{x})) \end{aligned}$

在这里，参数 $\theta$ 被视为随机变量，包含于隐变量 $\mathbf{z}$ 中。这样就可以将问题转换为

$\begin{aligned} q^*(\mathbf{z}) &= \underset{q(\mathbf{z})\in \mathbb{Q} }{argmin}\log{p(\mathbf{x})}-ELBO(q,\mathbf{x})\\ &=\underset{q(\mathbf{z})\in \mathbb{Q} }{argmax}ELBO(q,\mathbf{x}) \end{aligned}$

为方便之后的公式推导。将这里的ELBO写成泛函的形式

$\displaystyle L(q) = \int_{\mathbf{z}}q(\mathbf{z})\log{p(\mathbf{x},\mathbf{z})}d\mathbf{z}-\int_{\mathbf{z}}q(\mathbf{z})\log{q(\mathbf{z})}d\mathbf{z}$

基于平均场假设的变分推断

当 $\mathbb{Q}$ 为平均场分布族时，上述的变分推断就是基于平均场假设的变分推断。平均场分布族中，隐变量 $\mathbf{z}$ 可以分拆为多组相互独立的变量，概率密度 $q(\mathbf{z})$ 可以分解为

$\displaystyle q(\mathbf{z}) = \prod_{m=1}^{M}q_m(\mathbf{z_m})$

其中 $z_m$ 是 $\mathbf{z}$ 的子集，可以是单变量，也可以是多元变量。接着看 $L(q)$ 的第一项，将 $q(\mathbf{z})$ 表达式代入，同时分离出 $q_j(\mathbf{z_j})$ 。

$\begin{aligned} \int_{\mathbf{z}}q(\mathbf{z})\log{p(\mathbf{x},\mathbf{z})}d\mathbf{z}& = \int_{\mathbf{z}} \prod_{m=1}^{M}q_m(\mathbf{z_m})\log{p(\mathbf{x},\mathbf{z})}d\mathbf{z}\\ &=\int _{\mathbf{z_j}}q_j(\mathbf{z_j})\int _{\mathbf{z_m}(\mathbf{z_m}\neq \mathbf{z_j})}\prod_{m\neq j}q_m(\mathbf{z_m})\log{p(\mathbf{x},\mathbf{z})}d\mathbf{z_m}d\mathbf{z_j} \\ &=\int _{\mathbf{z_j}}q_j(\mathbf{z_j})E_{\prod_{m\neq j}q_m(\mathbf{z_m})}\log{p(\mathbf{x},\mathbf{z})}d\mathbf{z_j} \\ &=\int _{\mathbf{z_j}}q_j(\mathbf{z_j})\log{\tilde{p}(\mathbf{x},\mathbf{z_j})}d\mathbf{z_j}+C \end{aligned}$

其中， $\log{\tilde{p}(\mathbf{x},\mathbf{z_j})}$ 是关于 $\mathbf{z_j}$ 的未归一化的分布，有

$\log{\tilde{p}(\mathbf{x},\mathbf{z_j})}=E_{\prod_{m\neq j}q_m(\mathbf{z_m})}\log{p(\mathbf{x},\mathbf{z})}+C$

$L(q)$ 的第二项可写为

$\begin{aligned} \displaystyle \int_{\mathbf{z}}q(\mathbf{z})\log{q(\mathbf{z})}d\mathbf{z} &= \int_{\mathbf{z}}\prod_{m=1}^{M}q_m(\mathbf{z_m})\sum_{m=1}^{M}\log{q_m(\mathbf{z_m})}d\mathbf{z}\\ &=\int_{\mathbf{z}}\prod_{m=1}^{M}q_m(\mathbf{z_m})[\log{q_1(\mathbf{z_1})}+......+\log{q_M(\mathbf{z_M})}]d\mathbf{z} \end{aligned}$

再次将其展开，写成多个积分相加的形式，看其中的第一项( $q_m$ 是 $q_m(\mathbf{z_m})$ 的缩写)

$\begin{aligned} \displaystyle \int_{\mathbf{z}}\prod_{m=1}^{M}q_m(\mathbf{z_m})\log{q_1(\mathbf{z_1})}d\mathbf{z} &=\int_{\mathbf{z_1}...\mathbf{z_M}}q_1q_2...q_M\log{q_1}d\mathbf{z_1}...d\mathbf{z_M}\\ &=\int_{\mathbf{z_1}}q_1\log{q_1}d\mathbf{z_1}\int_{\mathbf{z_2}}q_2d\mathbf{z_2}...\int_{\mathbf{z_M}}q_Md\mathbf{z_M} \\ &=\int_{\mathbf{z_1}}q_1\log{q_1}d\mathbf{z_1} \end{aligned}$

所以， $L(q)$ 的第二项又可写为

$\begin{aligned} \displaystyle \int_{\mathbf{z}}q(\mathbf{z})\log{q(\mathbf{z})}d\mathbf{z} &= \sum_{m=1}^{M}\int_{\mathbf{z_m}}q_{\mathbf{z_m}}\log{q_{\mathbf{z_m}}}d\mathbf{z_m} \\ &=\int_{\mathbf{z_j}}q_{\mathbf{z_j}}\log{q_{\mathbf{z_j}}}d\mathbf{z_j}+C\end{aligned}$

最终， $L(q)$ 可以写为

$\displaystyle L(q) = \int_{\mathbf{\mathbf{z_j}}}q_j(\mathbf{z_j})\log{\frac{\tilde{p}(\mathbf{x},\mathbf{z_j})}{q_j(\mathbf{z_j})}}d\mathbf{z_j}+C = -KL(q_j(\mathbf{z_j})||\tilde{p}(\mathbf{x},\mathbf{z_j}))+C\leq C$

因此最大化 $ELBO(q,\mathbf{x})$ 等价于最小化 $KL(q_j(\mathbf{z_j})||\tilde{p}(\mathbf{x},\mathbf{z_j}))$ ，即找到了最优的简单分布 $q_j^*(\mathbf{z_j}) = \tilde{p}(\mathbf{x},\mathbf{z_j})$ 。

$\tilde{p}(\mathbf{x},\mathbf{z_j})\propto exp(E_{\prod_{m\neq j}q_m(\mathbf{z_m})}\log{p(\mathbf{x},\mathbf{z})})$

这样，关于 $q_j^*(\mathbf{z_j})$ 的计算依赖于其他的 $q_m(\mathbf{z_m})$ ，对于每一个 $q_j$ ，采用坐标上升的方法，固定其余 $q_m$ ，依次求解，直到求出局部最优解 $q(\mathbf{z})$ 。

随机梯度变分推断（SGVI）

优化方法除了坐标上升，还有梯度上升，这里将阐述通过梯度上升来得到变分推断的另一种算法。

首先假设 $q(\mathbf{z})=q_\phi(\mathbf{z})$ ，即 $\phi$ 与 $q(\mathbf{z})$ 相关联。于是可以将泛函优化转换为函数优化，即

$\underset{q(\mathbf{z})}{argmax}L(q)=\underset{\phi }{argmax}L(\phi )$

其中 $\displaystyle L(\phi) = E_{q_\phi(\mathbf{z})}[\log{p(\mathbf{x},\mathbf{z})}-\log{q_\phi(\mathbf{z})}]$ ，接着对该式中的 $\phi$ 进行梯度计算

上述式子将期望写成积分的形式，同时交换求导和积分次序，最后展开的第二项又可写为

$\displaystyle \int_{\mathbf{z}} q_\phi(\mathbf{z}) \cdot \nabla_\phi[\log{p(\mathbf{x},\mathbf{z})}-\log{q_\phi(\mathbf{z})}]d\mathbf{z}\\ =-\int_{\mathbf{z}} q_\phi(\mathbf{z})\nabla_\phi \log{q_\phi(\mathbf{z})}d\mathbf{z}\\ =-\int_{\mathbf{z}} q_\phi(\mathbf{z})\frac{1}{q_\phi(\mathbf{z})}\nabla_\phi q_\phi(\mathbf{z})d\mathbf{z}\\ =-\int_{\mathbf{z}}\nabla_\phi q_\phi(\mathbf{z})d\mathbf{z}\\ =-\nabla_\phi\int_{\mathbf{z}} q_\phi(\mathbf{z})d\mathbf{z}\\ =-\nabla_\phi1\\ =0$

因此， $\nabla_\phi L(\phi)$ 等于展开后的第一项，即

$\begin{aligned} \nabla_\phi L(\phi) &= \int_{\mathbf{z}}\nabla_\phi q_\phi(\mathbf{z}) \cdot [\log{p(\mathbf{x},\mathbf{z})}-\log{q_\phi(\mathbf{z})}]d\mathbf{z}\\ &= \int_{\mathbf{z}}q_\phi(\mathbf{z})[\nabla_\phi \log{q_\phi(\mathbf{z})}][\log{p(\mathbf{x},\mathbf{z})}-\log{q_\phi(\mathbf{z})}]d\mathbf{z}\\ &=E_{q_\phi(\mathbf{z})}[\nabla_\phi \log{q_\phi(\mathbf{z})}][\log{p(\mathbf{x},\mathbf{z})}-\log{q_\phi(\mathbf{z})}] \end{aligned}$

最终的表达式是一个期望，这个期望可以采用蒙特卡洛采样来近似，得到梯度后，使用梯度上升的方式来得到参数 $\phi$ 的梯度，即

$\mathbf{z}^{(l)}\sim q_\phi(\mathbf{z})$

从 $q_\phi(\mathbf{z})$ 里采样，得到样本 $\mathbf{z}^{(l)}$

$\displaystyle E_{q_\phi(\mathbf{z})}\nabla_\phi \log{q_\phi(\mathbf{z})}[\log{p(\mathbf{x},\mathbf{z})}-\log{q_\phi(\mathbf{z})}] =\frac{1}{L}\sum_{l=1}^{L}\nabla_\phi \log{q_\phi(\mathbf{z}^{(l)})}[\log{p(\mathbf{x},\mathbf{z}^{(l)})}-\log{q_\phi(\mathbf{z}^{(l)})}]$

但是在采样过程中，求和符号中有一个对数项，直接采样的话，如果 $q_\phi(\mathbf{z})$ 采到接近于 0的样本点会造成这个对数值非常的不稳定，也就是说直接采样的方差很大，为了解决方差很大的问题，可以采用重参数化技巧（Reparameterization）。

取 $\displaystyle \mathbf{z}=g_\phi(\varepsilon ,\mathbf{x}),\varepsilon \sim p(\varepsilon)$ ，对 $\mathbf{z}\sim q_\phi(\mathbf{z})$ ，存在 $| q_\phi(\mathbf{z})d\mathbf{z}| = |p(\mathbf{\varepsilon} )d\mathbf{\varepsilon} |$ ，这样就将 $\mathbf{z}$ 的随机性转移到 $\varepsilon$ 上，

$\begin{aligned} \nabla_\phi L(\phi) &=\nabla_\phi E_{q_\phi(\mathbf{z})} [\log{p(\mathbf{x},\mathbf{z})}-\log{q_\phi(\mathbf{z})}] \\ &=\nabla_\phi \int_{\mathbf{z}}[\log{p(\mathbf{x},\mathbf{z})}-\log{q_\phi(\mathbf{z})}]q_\phi(\mathbf{z})d\mathbf{z}\\ &=\nabla_\phi \int_{\mathbf{\varepsilon }}[\log{p(\mathbf{x},\mathbf{z})}-\log{q_\phi(\mathbf{z})}]p(\mathbf{\varepsilon })d\mathbf{\varepsilon } \\ &=\nabla_\phi E_{p(\varepsilon )}[\log{p(\mathbf{x},\mathbf{z})}-\log{q_\phi(\mathbf{z})}]\\ &=E_{p(\varepsilon )}[\nabla_\phi(\log{p(\mathbf{x},\mathbf{z})}-\log{q_\phi(\mathbf{z})})]\\ &=E_{p(\varepsilon )}[\nabla_{\mathbf{z}}(\log{p(\mathbf{x},\mathbf{z})}-\log{q_\phi(\mathbf{z})})\nabla_{\phi}\mathbf{z}]\\ &=E_{p(\varepsilon )}[\nabla_{\mathbf{z}}(\log{p(\mathbf{x},\mathbf{z})}-\log{q_\phi(\mathbf{z})})\nabla_{\phi}g_\phi(\varepsilon ,\mathbf{x})] \end{aligned}$