经典机器学习系列(十)【变分推断】

小小何先生

已于 2024-02-24 22:46:33 修改

阅读量4.7k

点赞数 25

分类专栏：机器学习文章标签：机器学习人工智能

于 2020-04-13 11:13:26 首次发布

本文链接：https://blog.csdn.net/weixin_39059031/article/details/105480736

版权

机器学习专栏收录该内容

16 篇文章

订阅专栏

文章目录

贝叶斯推断的优势在于可以结合一些我们已知的先验信息。对于复杂的一些问题建模也非常灵活，很适合用于应用统计方面的工作。但是贝叶斯模型有一些问题，如果用传统的MCMC来求的话速度会非常慢，而现今问题的数据量和维度都比较大，在这样的问题上做贝叶斯推理的话就会有很大的挑战。

贝叶斯与近似贝叶斯

贝叶斯推断(Bayesian Inference)，在贝叶斯推断中我们有观测数据 $x=\{x_{1},x_{2},\cdots, x_{n}\}$ ，将模型的参数设置为 $z$ ，它具有 $m$ 个参数 $z=\{z_{1},z_{2},\cdots,z_{m}\}$ 。给定一个先验(prior)分布 $p (z)$ ，在我们观测到数据 $x$ 之后，我们依据这个数据对 $z$ 的分布有一个更新。这种更新我们通常称之为计算后验分布(posterior distribution) $p (z ∣ x)$ 。

$\frac{p(x,z)}{p(x)} \\ = \frac{p(x|z)p(z)}{p(x)}$

其中 $p (z ∣ x)$ 是后验分布； $p (x ∣ z)$ 是likelihood，相当于是一个方程，将数据 $x$ 和我们所关心的参数 $z$ 联系在了一起； $p (z)$ 是参数的先验prior信息；而 $p (x)$ 是我们对于数据的信息，通常称之为evidence。

一般来说，贝叶斯建模需要走以下几步：

选一个prior，然后去选一个给定的likelihood。一般我们需要有一些假设，比如prior或者likelihood是服从某种分布的。
基于观测数据，去计算后验分布。
如果后验分布变量 $z$ 的维度非常高的话，我们就没办法将其全部表示出来，我们一般用后验分布的一些统计量，来代表整个后验分布。比如常见的用posterior mean and variances。

但是有一个问题，就是要去计算后验分布 $p (z ∣ x)$ 的话，我们需要去计算 $p(x)=\int_{z} p(x, z) d z$ 这个积分，如果是高维度上的积分，数值上计算是非常困难的。并且有些情况是可能不存在解析解的。常用的方法有Markov Chain Monte Carlo(MCMC)，但是计算比较慢。

另外一种思路，把贝叶斯模型的计算问题转化为一个优化问题。之后就可以通过一些优化上的手段来进行加速。

KL散度

而用一个分布去拟合另一个分布通常需要衡量这两个分布之间的相似性，通常采用KL散度，当然还有其他的一些方法，像JS散度这种。下面介绍KL散度：

机器学习中比较重要的一个概念—相对熵(relative entropy)。相对熵又被称为KL散度(Kullback–Leibler divergence) 或信息散度 (information divergence)，是两个概率分布间差异的非对称性度量 。在信息论中，相对熵等价于两个概率分布的信息熵的差值，若其中一个概率分布为真实分布，另一个为理论（拟合）分布，则此时相对熵等于交叉熵与真实分布的信息熵之差，表示使用理论分布拟合真实分布时产生的信息损耗 。其公式如下：

$D_{K L}(p \| q)=\sum_{i=1}^{N}\left[p\left(x_{i}\right) \log p\left(x_{i}\right)-p\left(x_{i}\right) \log q\left(x_{i}\right)\right]$

合并之后表示为：

$D_{K L}(p \| q)=\sum_{i=1}^{N} p\left(x_{i}\right) \log \left(\frac{p\left(x_{i}\right)}{q\left(x_{i}\right)}\right)$

假设理论拟合出来的事件概率分布 $q (x)$ 跟真实的分布 $p (x)$ 一模一样，即 $p (x) = q (x)$ ，那么 $p\left(x_{i}\right) \log q\left(x_{i}\right)$ 就等于真实事件的信息熵，这一点显而易见。在理论拟合出来的事件概率分布跟真实的一模一样的时候，相对熵等于0。而拟合出来不太一样的时候，相对熵大于0。其证明如下：

$\sum_{i=1}^{N} p\left(x_{i}\right) \log \frac{q\left(x_{i}\right)}{p\left(x_{i}\right)} \leq \sum_{i=1}^{N} p\left(x_{i}\right)\left(\frac{q\left(x_{i}\right)}{p\left(x_{i}\right)}-1\right)=\sum_{i=1}^{N}\left[p\left(x_{i}\right)-q\left(x_{i}\right)\right]=0$

其中第一个不等式是由 $\leq x -1$ 推导出来的，只在 $p(x_{i})=q(x_{i})$ 时取到等号。

这个性质很关键，因为它正是深度学习梯度下降法需要的特性。假设神经网络拟合完美了，那么它就不再梯度下降，而不完美则因为它大于0而继续下降。

但它有不好的地方，就是它是不对称的。也就是用 $P$ 来拟合 $Q$ 和用 $Q$ 来拟合 $P$ 的相对熵居然不一样，而他们的距离是一样的。这也就是说，相对熵的大小并不跟距离有一一对应的关系。

变分贝叶斯

我们经常利用贝叶斯公式求posterior distribution $P (Z ∣ X)$

$X)=\frac{p(X, Z)}{\int_{z} p(X, Z=z) d z}$

但posterior distribution $P (Z ∣ X)$ 求解用贝叶斯的方法是比较困难的，因为我们需要去计算 $\int_{z} p(X=x, Z=z) d z$ ，而 $Z$ 通常会是一个高维的随机变量，这个积分计算起来就非常困难。在贝叶斯统计中，所有的对于未知量的推断(inference)问题可以看做是对后验概率(posterior)的计算。因此提出了Variational Inference来计算posterior distribution。

那Variational Inference怎么做的呢？其核心思想主要包括两步：

假设一个分布 $\lambda)$ (这个分布是我们搞得定的，搞不定的就没意义了)
通过改变分布的参数 $\lambda$ ，使 $\lambda)$ 靠近 $p (z ∣ x)$ 。

总结称一句话就是，为真实的后验分布引入了一个参数话的模型。即：用一个简单的分布 $\lambda)$ 拟合复杂的分布 $p (z ∣ x)$ 。

这种策略将计算 $p (z ∣ x)$ 的问题转化成优化问题了

$\lambda^{*}=\arg \min _{\lambda} \operatorname{divergence}(p(z | x), q(z ; \lambda))$

收敛后，就可以用 $q(z;\lambda)$ 来代替 $p (z ∣ x)$ 了。

本文的目的还是来求这个变分推理，不要走偏了。下面涉及一些公式等价转换：

$\begin{aligned} \log P(x) &=\log P(x, z)-\log P(z | x) \\ &=\log \frac{P(x, z)}{Q(z ; \lambda)}-\log \frac{P(z | x)}{Q(z ; \lambda)} \end{aligned}$

等式两边同时对 $Q (z)$ 求期望，得：

$\begin{aligned} \mathbb{E}_{q(z ; \lambda)} \log P(x) &=\mathbb{E}_{q(z ; \lambda)} \log P(x, z)-\mathbb{E}_{q(z ; \lambda)} \log P(z | x) \\ \log P(x) &=\mathbb{E}_{q(z ; \lambda)} \log \frac{p(x, z)}{q(z ; \lambda)}-\mathbb{E}_{q(z ; \lambda)} \log \frac{p(z | x)}{q(z ; \lambda)} \\ &=K L(q(z ; \lambda) \| p(z | x))+\mathbb{E}_{q(z ; \lambda)} \log \frac{p(x, z)}{q(z ; \lambda)} \\ \log P(x) &=K L(q(z ; \lambda) \| p(z | x))+\mathbb{E}_{q(z ; \lambda)} \log \frac{p(x, z)}{q(z ; \lambda)} \end{aligned}$

到这里我们需要回顾一下我们的问题，从另一个角度再来思考一遍，寻找一个近似后验 $q^{*}(z) \in Q$ 去近似 $p (z ∣ x)$ 。

$q^{*}(z) = \argmin_{q(z) \in Q} L(q(z),p(z|x))$

这里有两个注意点。1. 如何来选取这个 $Q$ 。2. $L$ 表示它们之间的距离度量，通常用KL-divergence来表示： $L (q (z), p (z ∣ x)) = K L (q (z) ∣∣ p (z ∣ x))$ 。用KL的原因在于它满足一些凸性，可导等性质。另一方面在于它具备一些性质：

$q^{*}(z) = \argmin_{q(z) \in Q} KL(q(z),p(z|x)) \\ = \argmin_{q(z) \in Q} - \int_{z} q(z) log[\frac{p(z|x)}{q(z)}]$

$p (z ∣ x)$ 是我们的target， $q (z)$ 是我们提出的，需要去优化的分布。要去算这个优化的目标函数，我们需要已知 $p (z ∣ x)$ 这个后验分布，但是我们不知道这个后验分布是什么。因此，上述这个公式我们是无法直接计算的。这就变成了一个循环的问题，为了要去算 $p (z ∣ x)$ ，要去计算 $q (z)$ ，而要计算 $q (z)$ 又需要计算 $p (z ∣ x)$ 。在没有其它约束的情况下，当 $q^{*}=p(z|x)$ 的时候能够取到理论的最优值，但是 $p (z ∣ x)$ 并不知道。

我们对KL Divergence最小化的问题做一些形式上的转变，期望去找到一个等价的问题：

$\begin{aligned} \mathrm{KL}(q(z) \| p(z \mid x)) &=-\int_{z} q(z) \log \left[\frac{p(z \mid x)}{q(z)}\right] d z \\ &=\int_{z} q(z) \log q(z) d z-\int_{z} q(z) \log p(z \mid x) d z \\ &=\mathbb{E}_{q}[\log q(z)]-\mathbb{E}_{q}[\log p(z \mid x)] \\ &=\mathbb{E}_{q}[\log q(z)]-\mathbb{E}_{q}\left[\log \left[\frac{p(x, z)}{p(x)}\right]\right] \\ &=\mathbb{E}_{q}[\log q(z)]-\mathbb{E}_{q}[\log p(x, z)]+\mathbb{E}_{q}[\log p(x)] \\ &=\underbrace{\mathbb{E}_{q}[\log q(z)]-\mathbb{E}_{q}[\log p(x, z)]}_{-\text {ELBO }}+\log p(x) \end{aligned}$

上述公式经过一定的变型之后，ELBO就是log-likelihood的一个下界函数：

$\begin{aligned} \log p(x) &=\mathrm{ELBO}(q)+\mathrm{KL}(q(z) \| p(z \mid x)) \\ & \geq \mathrm{ELBO}(q) \end{aligned}$

因为 $\log p(x)$ 是一个与 $q$ 无关的常数，那么对 $\mathrm{KL}(q(z) \| p(z \mid x))$ 的Minimizing问题就可以等价于Maximizing ELBO( $q$ )。

我们为什么要去做这样的一个替换呢？之前我们并不知道 $q^{*}(z) = \argmin_{q(z) \in Q} KL(q(z),p(z|x))$ 中的后验分布 $p (z ∣ x)$ 。因为想要计算它的话，需要计算一个积分。而ELBO的表达式如下：

$\begin{aligned} \mathrm{ELBO}(q) &=\mathbb{E}_{q}[\log p(x, z)]-\mathbb{E}_{q}[\log q(z)] \\ &=\int_{z} q(z) \log [\overbrace{\frac{p(x, z)}{q(z)}}^{\text {known }}] d z \end{aligned}$

其中 $p (x, z) = p (x ∣ z) p (z)$ ，是一个先验分布与likelihood的乘积。因此可以对ELBO做优化求解。现在，variational inference的目标变成：

$\max_{\lambda}\mathbb E_{q(z;\lambda)}[\text{log}p(x,z)-\text{log}q(z;\lambda)]$

$\mathbb E_{q(z;\lambda)}[\text{log}p(x,z)-\text{log}q(z;\lambda)]$ 称为Evidence Lower Bound(ELBO)。 $p (x)$ 一般被称之为evidence，又因为 $K L (q ∣∣ p) >= 0$ , 所以 $p(x)>=E_{q(z;\lambda)}[\text{log}p(x,z)-\text{log}q(z;\lambda)]$ , 这就是为什么被称为ELBO。

实际上EM算法（Expectation-Maximization)就是利用了这一特征，它分为交替进行的两步：E step假设模型参数不变， $q (z) = p (z ∣ x)$ ，计算对数似然率，在M step再做ELBO相对于模型参数的优化。与变分法比较，EM算法假设了当模型参数固定时， $p (z ∣ x)$ 是易计算的形式，而变分法并无这一限制，对于条件概率难于计算的情况，变分法仍然有效。

那如何来求解上述公式呢？下面介绍平均场（mean-field）、蒙特卡洛、和黑盒变分推断 (Black Box Variational Inference) 的方法。

平均场变分族(mean-field variational family)

之前我们说我们选择一族合适的近似概率分布 $q(Z;\lambda)$ ，那么实际问题中，我们可以选择什么形式的 $q(Z;\lambda)$ 呢？

一个简单而有效的变分族为平均场变分族(mean-field variational family)。它假设了隐藏变量间是相互独立的：

$q(Z;\lambda) = \prod_{k=1}^{K}q_k(Z_k;\lambda_k)$

这个假设看起来似乎比较强，但实际应用范围还是比较广泛，我们可以将其延展为将有实际相互关联的隐藏变量分组，而化为各组联合分布的乘积形式即可。

利用ELBO和平均场假设，我们就可以利用coordinate ascent variational inference（简称CAVI)方法来处理：

利用条件概率分布的链式法则有 ：

$p\left(z_{1: m}, x_{1: n}\right)=p\left(x_{1: n}\right) \prod_{j=1}^{m} p\left(z_{j} | z_{1:(j-1)}, x_{1: n}\right)$

变分分布的期望为：

$E\left[\log q\left(z_{1: m}\right)\right]=\sum_{j=1}^{m} E_{j}\left[\log q\left(z_{j}\right)\right]$

将其代入ELBO的定义得到：

$O=\operatorname{logp}\left(x_{1: n}\right)+\sum_{j=1}^{m} E\left[\log p\left(z_{j} | z_{1:(j-1)}, x_{1: n}\right)\right]-E_{j}\left[\log q\left(z_{j}\right)\right]$

将其对 $z_{k}$ 求导并令导数为零有：

$\frac{d E L B O}{d q\left(z_{k}\right)}=E_{-k}\left[\log p\left(z_{k} | z_{-k}, x\right)\right]-\log q\left(z_{k}\right)-1=0$

由此得到coordinate ascent 的更新法则为：

$q^{*}\left(z_{k}\right) \propto \exp E_{-k}\left[\log p\left(z_{k}, z_{-k}, x\right)\right]$

我们可以利用这一法则不断的固定其他的 $z$ 的坐标来更新当前的坐标对应的 $z$ 值，这与Gibbs Sampling过程类似，不过Gibbs Sampling是不断的从条件概率中采样，而CAVI算法中是不断的用如下形式更新：

$q^{*}\left(z_{k}\right) \propto \exp E[\log (\text {conditional})]$

Proof：

$\begin{aligned} \mathrm{ELBO}(q)=& \mathbb{E}_{q}[\log p(x, z)]-\mathbb{E}_{q}[\log q(z)] \\ =& \int_{z} q(z) \log p(z, x) d z-\left[\mathbb{E}_{q_{j}}\left[\log q_{j}\left(z_{j}\right)\right]+\underbrace{\sum_{i \neq j} \mathbb{E}_{q_{i}}\left[\log q_{i}\left(z_{i}\right)\right]}_{\text {const }}\right] \\ =& \int_{z_{j}} q_{j}\left(z_{j}\right)\left[\int_{z_{-j}} q_{-j}\left(z_{-j}\right) \log p(z, x) d z_{-j}\right] d z_{j} \\ &-\mathbb{E}_{q_{j}}\left[\log q_{j}\left(z_{j}\right)\right]-\text { const } \\ =& \int_{z_{j}} q_{j}\left(z_{j}\right) \mathbb{E}_{q-j}[\log p(z, x)] d z_{j}-\int_{z_{j}} q_{j}\left(z_{j}\right) \log q_{j}\left(z_{j}\right) d z_{j}-\text { const } \end{aligned}$

定义一个新的分布：

$\log \tilde{p}_{j}\left(z_{j}, x\right)=\mathbb{E}_{q-j}[\log p(z, x)]+\text { const }$

此时的ELBO就可以写成如下形式：

$\begin{aligned} \mathrm{ELBO}(q) &=\int_{z_{j}} q_{j}\left(z_{j}\right) \log \tilde{p}_{j}\left(z_{j}, x\right) d z_{j}-\int_{z_{j}} q_{j}\left(z_{j}\right) \log q_{j}\left(z_{j}\right) d z_{j}+\text { const } \\ &=\int_{z_{j}} q_{j}\left(z_{j}\right) \log \frac{\tilde{p}_{j}\left(z_{j}, x\right)}{q_{j}\left(z_{j}\right)} d z_{j}+\text { const } \\ &=-\mathrm{KL}\left(q_{j}\left(z_{j}\right) \| \tilde{p}_{j}\left(z_{j}, x\right)\right)+\text { const } \end{aligned}$

此时的KL divergence达到最小值时，当：

$\begin{aligned} q_{j}^{*}\left(z_{j}\right) &=\tilde{p}_{j}\left(z_{j}, x\right) \\ & \propto \exp \left\{\mathbb{E}_{q-j}[\log p(z, x)]\right\} \\ (\text { normalize }) &=\frac{\exp \left\{\mathbb{E}_{q-j}[\log p(z, x)]\right\}}{\int_{z_{j}} \exp \left\{\mathbb{E}_{q_{-j}}[\log p(z, x)]\right\} d z_{j}} \end{aligned}$

其完整算法如下所示：

CAVI算法流程

MCMC

MCMC方法是利用马尔科夫链取样来近似后验概率，变分法是利用优化结果来近似后验概率，那么我们什么时候用MCMC，什么时候用变分法呢？

首先，MCMC相较于变分法计算上消耗更大，但是它可以保证取得与目标分布相同的样本，而变分法没有这个保证：它只能寻找到近似于目标分布一个密度分布，但同时变分法计算上更快，由于我们将其转化为了优化问题，所以可以利用诸如随机优化(stochastic optimization)或分布优化(distributed optimization)等方法快速的得到结果。所以当数据量较小时，我们可以用MCMC方法消耗更多的计算力但得到更精确的样本。当数据量较大时，我们用变分法处理比较合适。

另一方面，后验概率的分布形式也影响着我们的选择。比如对于有多个峰值的混合模型，MCMC可能只注重其中的一个峰而不能很好的描述其他峰值，而变分法对于此类问题即使样本量较小也可能优于MCMC方法。

黑盒变分推断(BBVI)

ELBO公式表达为：

$\mathbb E_{q(z;\lambda)}[\text{log}p(x,z)-\text{log}q(z;\lambda)]$

对用参数 $\theta$ 替代 $\lambda$ ，并对其求导：

$\nabla_{\theta} \operatorname{ELBO}(\theta)=\nabla_{\theta} \mathbb{E}_{q}\left(\log p(x, z)-\log q_{\theta}(z)\right)$

直接展开计算如下：

$\begin{aligned} & \frac{\partial}{\partial \theta} \int q_{\theta}(z)\left(\log p(x, z)-\log q_{\theta}(z)\right) d z \\ =& \int \frac{\partial}{\partial \theta}\left[q_{\theta}(z)\left(\log p(x, z)-\log q_{\theta}(z)\right)\right] d z \\ =& \int \frac{\partial}{\partial \theta}\left(q_{\theta}(z) \log p(x, z)\right)-\frac{\partial}{\partial \theta}\left(q_{\theta}(z) \log q_{\theta}(z)\right) d z \\ =& \int \frac{\partial q_{\theta}(z)}{\partial \theta} \log p(x, z)-\frac{\partial q_{\theta}(z)}{\partial \theta} \log q_{\theta}(z)-\frac{\partial q_{\theta}(z)}{\partial \theta} d z \end{aligned}$

由于：

$\int \frac{\partial q_{\theta}(z)}{\partial \theta} d z=\frac{\partial}{\partial \theta} \int q_{\theta}(z) d z=\frac{\partial}{\partial \theta} 1=0$

因此：

$\begin{aligned} \nabla_{\theta} \operatorname{ELBO}(\theta) &=\int \frac{\partial q_{\theta}(z)}{\partial \theta}\left(\log p(x, z)-\log q_{\theta}(z)\right) d z \\ &=\int q_{\theta}(z) \frac{\partial \log q_{\theta}(z)}{\partial \theta}\left(\log p(x, z)-\log q_{\theta}(z)\right) d z \\ &=\int q_{\theta}(z) \nabla_{\theta} \log q_{\theta}(z)\left(\log p(x, z)-\log q_{\theta}(z)\right) d z \\ &=\mathbb{E}_{q}\left[\nabla_{\theta} \log q_{\theta}(z)\left(\log p(x, z)-\log q_{\theta}(z)\right)\right] \end{aligned}$

然后写成 SGD，就是所谓 Black Box Variational Inference (BBVI)。

$\begin{aligned} & \mathbb{E}_{z \sim q_{\theta}(z)}\left[\nabla_{\theta} \log q_{\theta}(z)\left(\log p(x, z)-\log q_{\theta}(z)\right)\right] \\ \approx & \frac{1}{N} \sum_{i=1}^{N} \nabla_{\theta} \log q_{\theta}\left(z_{i}\right)\left(\log p\left(x, z_{i}\right)-\log q_{\theta}\left(z_{i}\right)\right) \end{aligned}$