近似推断-CSDN博客

本文链接：https://blog.csdn.net/wanchaochaochao/article/details/109750889

生成模型中的推断

模型分为生成模型和判别模型，生成模型能够随机生成观测数据，同时对观测值 $X$ 和标注值 $Y$ 进行概率建模，从而计算出 $P (X, Y)$ ，而判别模型只能建立从观测值 $X$ 到标注值 $Y$ 之间的映射，从而计算出 $P (Y ∣ X)$ 。在深度学习的生成模型中，一般会把观测值 $x$ 称为可见变量 $v$ ，将标注值 $y$ 称为不可见的隐变量 $h$ 。
许多概率生成模型为了计算 $p (v, h)$ ，需要采用一些训练方法。对于采用极大似然的训练方法，此过程中必然要计算 $p (h ∣ v)$ 或其期望，而计算 $p (h ∣ v)$ 的过程称为推断。
$\theta^*=argmax_\theta\mathbb{E}_{v\sim\hat{p}_{data}}log\ p_{model}(v;\theta)\\ =argmax_\theta\mathbb{E}_{v\sim\hat{p}_{data}}log\sum_hp_{model}(v,h)\\ =argmax_\theta\sum_vlog\sum_hp_{model}(h|v)$
然而，除了少数简单图模型，如RBM和PCA可以很方便计算 $p (h ∣ v)$ ，大多数有多个隐层的图模型，都难以计算 $p (h ∣ v)$ ，称为推断困难。对于这种模型，精确推断算法需要指数级计算量，所以采用近似推断。
在这里插入图片描述

将推断视作优化问题

有时候边缘化消去 $h$ 的操作很费时，会难以计算观测值的对数概率 $log\ p(v;\theta)$ ，可以计算 $log\ p(v;\theta)$ 的ELBO证据下界 $\mathcal{L}(v,\theta,q)$ 来作为替代。
$\mathcal{L}(v,\theta,q)=log\ p(v;\theta)-D_{KL}(q(h|v)||p(h|v;\theta))$
因为 $log\ p(v)$ 和 $\mathcal{L}(v,\theta,q)$ 之间差了一个 $K L$ 散度，而散度一定是非负的，
所以 $\mathcal{L}$ 必定小于等于 $log\ p(v;\theta)$ ，当且仅当分布 $q (h ∣ v) = p (h ∣ v)$ 时，取到等号。
$\mathcal{L}(v,\theta,q)=logp(v;\theta)-D_{KL}(q(h|v)||p(h|v;\theta)) \\ =logp(v;\theta)-\mathbb{E}_{h\sim q}log\frac{q(h|v)}{p(h|v)} \\ =logp(v;\theta)-\mathbb{E}_{h\sim q}log\frac{q(h|v)}{\frac{p(h,v;\theta)}{p(v;\theta)}} \\ =logp(v;\theta)-\mathbb{E}_{h\sim q}[logq(h|v)-logp(h,v;\theta)+logp(v;\theta)] \\ =-\mathbb{E}_{h\sim q}[logq(h|v)-logp(h,v;\theta)] \\ =\mathbb{E}_{h\sim q}[logp(h,v)]+H(q) \tag{51}$
对于一个合适选择的分布 $q (h ∣ v)$ ， $\mathcal{L}(v,\theta,q)$ 是容易计算的，对任意一个分布 $q (h ∣ v)$ ， $\mathcal{L}(v,\theta,q)$ 提供了似然函数 $log\ p(v;\theta)$ 的一个下界，因此可以将推断问题，看做是寻找一个分布 $q (h ∣ v)$ 使 $\mathcal{L}(v,\theta,q)$ 最大的过程。

坐标上升推断

将 $\mathcal{L}(v,\theta,q)$ 作为需要优化的目标函数，采用坐标上升算法，分别依次对 $\theta$ 和 $q$ 变量进行更新并交替迭代，也称为EM算法。在E阶段更新分布 $q$ 来最大化 $\mathcal{L}$ ，在M阶段更新 $\theta$ 来最大化 $\mathcal{L}$ 。

E阶段：固定 $\theta$ ，更新 $q(h|v^{(i)})=argmax_q\mathcal{L}(v^{(i)},\theta,q)=p(h|v^{(i)};\theta)$
M阶段：固定 $q$ ，更新 $\theta=argmax_\theta\sum_i\mathcal{L}(v^{(i)},\theta,q)$

虽然E阶段采用精确推断算法计算 $q$ ，但是 $\theta$ 实际上有差异，所以可以看作近似推断。

最大后验推断

一般的推断是计算 $p (h ∣ v)$ 的完整概率分布，另一种情况是只计算 $p (h ∣ v)$ 的点估计，即只计算 $h$ 的一个最可能值来代替在所有可能值的完整分布上的推断，称为最大后验推断MAP。
$h^*=argmax_hp(h|v)$
虽然MAP是精确计算 $p (h ∣ v)$ ，但是只给出最可能的值而不是完整分布，这并不能提供最优的 $q$ ，所以可以看作近似推断。
回顾推断定义，对于一个无限制的概率分布族中的分布 $q$ ，使用优化算法最大化
$\mathcal{L}(v,\theta,q)=\mathbb{E}_{h\sim q}[log\ p(h,v)]+H(q)$
假设分布 $q$ 为Dirac分布
$q(h|v)=\delta(h-\mu)$
丢弃 $\mathcal{L}$ 中不随 $\mu$ 变化的项，求解 $\mu$ 的最优化问题为
$\mu^*=argmax_\mu log\ p(h=\mu,v)$ 这等价于MAP推断问题
$h^*=argmax_h\ p(h|v)$
回顾到坐标上升推断的EM算法，可以在E阶段使用MAP推断估计出 $h^*$ ，M阶段更新 $\theta^*$ 以增大 $log\ p(h^*,v)$ 。
稀疏编码模型，在线性因子模型的基础上，对隐变量加了一个诱导稀疏性的先验，一个常用的选择是Laplace先验。
$p(h_i)=\frac{h}{2}exp(-\lambda|h_i|)$
可见变量的数据是由一个线性变化加上噪声构成
$p(v|h)=\mathcal{N}(v;Wh+b,\beta^{-1}I)$
分布 $p (h ∣ v)$ 难以计算，因为 $h_i$ 和 $h_j$ 之间会相互影响，难以直接确定。在高斯模型中， $h_i$ 和 $h_j$ 之间可以通过协方差矩阵高效建模，但是稀疏模型中的稀疏先验使其相互作用关系不服从高斯分布。因此，稀疏模型难以通过极大似然估计来进行学习，而是通过MAP推断和 $\mathcal{L}$ 来学习。将向量 $h$ 拼成矩阵 $H$ ，将 $v$ 拼成矩阵 $V$ ，那么稀疏编码问题为最小化。
$J(H,W)=\sum_{i,j}|H_{i,j}|+\sum_{i,j}(V-HW^T)^2_{i,j}$