变分推断（variational inference）

最新推荐文章于 2024-08-04 00:22:50 发布

u012436149

最新推荐文章于 2024-08-04 00:22:50 发布

阅读量2.1w

点赞数 14

分类专栏： MachineLearning ProbModel

本文链接：https://blog.csdn.net/u012436149/article/details/55000323

版权

MachineLearning 同时被 2 个专栏收录

16 篇文章 1 订阅

订阅专栏

ProbModel

1 篇文章 0 订阅

订阅专栏

大家对贝叶斯公式应该都很熟悉
$P(Z|X)=\frac{p(X,Z)}{\int_z p(X,Z=z)dz}$

我们称 $P (Z ∣ X)$ 为posterior distribution。posterior distribution的计算通常是非常困难的，为什么呢？
假设 $Z$ 是一个高维的随机变量，如果要求 $P (Z = z ∣ X = x)$ ,我们不可避免的要计算 $\int_z p(X=x,Z=z)dz$ ,由于 $Z$ 是高维随机变量，这个积分是相当难算的。

variational inference就是用来计算posterior distribution的。

core idea

variational inference的核心思想包含两步：

假设分布 $q(z;\lambda)$ (这个分布是我们搞得定的，搞不定的就没意义了)
通过改变分布的参数 $\lambda$ , 使 $q(z;\lambda)$ 靠近 $p (z ∣ x)$

总结称一句话就是，用一个简单的分布 $q(z;\lambda)$ 拟合复杂的分布 $p (z ∣ x)$

这种策略将计算 $p (z ∣ x)$ 的问题转化成优化问题了
$\lambda^* = \arg\min_{\lambda}~divergence(p(z|x),q(z;\lambda))$
收敛后，就可以用 $q(z;\lambda)$ 来代替 $p (z ∣ x)$ 了

公式推倒

对概率求对数

$\begin{aligned} \text{log}P(x) &= \text{log}P(x,z)-\text{log}P(z|x) \\ &=\text{log}\frac{P(x,z)}{Q(z;\lambda)}-\text{log}\frac{P(z|x)}{Q(z;\lambda)} \end{aligned}$
等式的两边同时对分布 $Q (z)$ 求期望，可以得到
$\begin{aligned} \mathbb E_{q(z;\lambda)}\text{log}P(x) &= \mathbb E_{q(z;\lambda)}\text{log}P(x,z)-\mathbb E_{q(z;\lambda)}\text{log}P(z|x) \\ \text{log}P(x)&=\mathbb E_{q(z;\lambda)}\text{log}\frac{p(x,z)}{q(z;\lambda)}-\mathbb E_{q(z;\lambda)}\text{log}\frac{p(z|x)}{q(z;\lambda)} \\ &=KL(q(z;\lambda)||p(z|x))+\mathbb E_{q(z;\lambda)}\text{log}\frac{p(x,z)}{q(z;\lambda)}\\ \text{log}P(x)&=KL(q(z;\lambda)||p(z|x))+\mathbb E_{q(z;\lambda)}\text{log}\frac{p(x,z)}{q(z;\lambda)} \end{aligned}$
我们的目标是使 $q(z:\lambda)$ 靠近 $p (z ∣ x)$ ,就是 $\min_\lambda KL(q(z;\lambda)||p(z|x))$ ,由于 $KL(q(z;\lambda)||p(z|x))$ 中包含 $p (z ∣ x)$ ，这项非常难求。将 $\lambda$ 看做变量时， $\text{log}P(x)$ 为常量，所以， $\min_\lambda KL(q(z;\lambda)||p(z|x))$ 等价于 $\max_\lambda \mathbb E_{q(z;\lambda)}\text{log}\frac{p(x,z)}{q(z;\lambda)}$ 。 $\mathbb E_{q(z;\lambda)}[\text{log}p(x,z)-\text{log}q(z;\lambda)]$ 称为Evidence Lower Bound(ELBO)。

现在，variational inference的目标变成 $\max_\lambda \mathbb E_{q(z;\lambda)}[\text{log}p(x,z)-\text{log}q(z;\lambda)]$

为什么称之为ELBO呢？
$p (x)$ 一般被称之为evidence，又因为 $K L (q ∣ ∣ p) > = 0$ , 所以 $p(x)>=E_{q(z;\lambda)}[\text{log}p(x,z)-\text{log}q(z;\lambda)]$ , 这就是为什么被称为ELBO

ELBO

继续看一下ELBO
$\begin{aligned} ELBO(\lambda) &= \mathbb E_{q(z;\lambda)}[\text{log}p(x,z)-\text{log}q(z;\lambda)] \\ &= \mathbb E_{q(z;\lambda)}\text{log}p(x,z) -\mathbb E_{q(z;\lambda)}\text{log}q(z;\lambda)\\ &= \mathbb E_{q(z;\lambda)}\text{log}p(x,z) + H(q) \end{aligned}$
The first term represents an energy. The energy encourages $q$ to focus probability mass where the model puts high probability, $p(\mathbf{x}, \mathbf{z})$ . The entropy encourages $q$ to spread probability mass to avoid concentrating to one location.

q(Z)

假设 $Z$ 包含K个随机变量( 当然，每个随机变量也有可能为多元随机变量)，我们假设：
$q(Z;\lambda) = \prod_{k=1}^{K}q_k(Z_k;\lambda_k)$
这个被称为mean field approximation。关于mean field approximation，https://metacademy.org/graphs/concepts/mean_field
ELBO则变成
$\begin{aligned} ELBO(\lambda) &= \mathbb E_{q(Z;\lambda)}\text{log}p(X,Z) -\mathbb E_{q(z;\lambda)}\text{log}q(Z;\lambda) \\ &= \int q(Z;\lambda)\text{log}p(X,Z)dZ-\int q(Z;\lambda)\text{log}q(Z;\lambda)dZ\\ &=\int [\prod_{k=1}^{K}q_k(Z_k;\lambda_k)] \text{log}p(X,Z)dZ-\int [\prod_{k=1}^{K}q_k(Z_k;\lambda_k)] \text{log}q(Z;\lambda)dZ \end{aligned}$
第一项为 energy，第二项为H(q)

energy

符号的含义：

$\ Z j Z = \{Z_j,\overline Z_j \}, \overline Z_j=Z\backslash Z_j$
$\ λ j \lambda=\{\lambda_j, \overline\lambda_j\}, \overline \lambda_j=\lambda\backslash\lambda_j$

先处理第一项：
$\begin{aligned} &\int \Bigr[\prod_{k=1}^{K}q_k(Z_k;\lambda_k)\Bigr] \text{log}p(X,Z)dZ = \\ &\int_{Z_j}q_j(Z_j;\lambda_j)\int_{ \overline Z_j}\Bigr[\prod_{k \neq j}^K q_k(Z_k;\lambda_k)\Bigr]\text{log}p(X,Z)d \overline Z_jdZ_j = \\ &\int_{Z_j}q_j(Z_j;\lambda_j)\Bigr[E_{q(\overline Z_j;\overline \lambda_j)}\text{log}p(X,Z)\Bigr]dZ_j=\\ &\int_{Z_j}q_j(Z_j;\lambda_j)\{\log \exp\Bigr[E_{q(\overline Z_j;\overline \lambda_j)}\text{log}p(X,Z)\Bigr]\}dZ_j=\\ &\int_{Z_j}q_j(Z_j;\lambda_j)\Bigr[\log q_j^* (Z_j;\lambda_j)+\log C\Bigr]dZ_j \end{aligned}$
其中 $q_j^* (Z_j;\lambda_j)=\frac{1}{C}\exp[E_{q(\overline Z_j;\overline \lambda_j)}\text{log}p(X,Z)]$ , $C$ 保证 $q_j^* (Z_j;\lambda_j)$ 是一个分布。 $C$ 与变分参数 $\overline \lambda_j$ 有关，与 $\lambda_j$ 无关！！

H(q)

再处理第二项：
$\begin{aligned} &\int \Bigr[\prod_{k=1}^{K}q_k(Z_k;\lambda_k)\Bigr] \text{log}q(Z;\lambda)dZ = \\ &\int \Bigr[\prod_{k=1}^{K}q_k(Z_k;\lambda_k)\Bigr] \sum_{n=1}^K\text{log}q(Z_n;\lambda)dZ = \\ &\sum_j\int \Bigr[\prod_{k=1}^{K}q_k(Z_k;\lambda_k)\Bigr] \text{log}q(Z_j;\lambda_j)dZ=\\ &\sum_j\int \Bigr[\prod_{k=1}^{K}q_k(Z_k;\lambda_k)\Bigr] \text{log}q(Z_j;\lambda_j)dZ=\\ &\sum_j\int_{Z_j} q_j(Z_j;\lambda_j)\text{log}q(Z_j;\lambda_j)dZ_j\int [\prod_{k\neq j}^{K}q_k(Z_k;\lambda_k)]d\overline Z_j=\\ &\sum_j\int_{Z_j} q_j(Z_j;\lambda_j)\text{log}q(Z_j;\lambda_j)dZ_j \end{aligned}$

再看ELBO

经过上面的处理，ELBO变为
$\begin{aligned} ELBO &= \int_{Z_i}q_i(Z_i;\lambda_j)\text{log}q_i^* (Z_i;\lambda_i)dZ_i-\sum_j\int_{Z_j} q_j(Z_j;\lambda_j)\text{log}q(Z_j;\lambda_j)dZ_j+\log C\\ &=\{\int_{Z_i}q_i(Z_i;\lambda_j)\text{log}q_i^* (Z_i;\lambda_i)dZ_i-\int_{Z_i} q_i(Z_i;\lambda_j)\text{log}q(Z_i;\lambda_i)dZ_i\} +H(q(\overline Z_i;\overline \lambda_i))+\log C\\ & \end{aligned}$
再看上式 $\{\}$ 中的项：
$\int_{Z_i}q_i(Z_i;\lambda_j)\text{log}q_i^* (Z_i;\lambda_i)dZ_i-\int_{Z_i} q_i(Z_i;\lambda_j)\text{log}q(Z_i;\lambda_i)dZ_i = -KL(q_i(Z_i;\lambda_j)||q_i^* (Z_i;\lambda_i))$
所以ELBO又可以写成：
$ELBO=-KL(q_i(Z_i;\lambda_j)||q_i^* (Z_i;\lambda_i))+H(q(\overline Z_i;\overline \lambda_i))+\log C$
我们要 $m a x m i z e E L B O$ ，如何更新 $q_i(Z_i;\lambda_i)$ 呢？
从
$ELBO=-KL(q_i(Z_i;\lambda_i)||q_i^* (Z_i;\lambda_i))+H(q(\overline Z_i;\overline \lambda_i))+\log C$
可以看出，当 $q_i(Z_i;\lambda_j)=q_i^* (Z_i;\lambda_i)$ 时， $KL(q_i(Z_i;\lambda_j)||q_i^* (Z_i;\lambda_i))=0$ 。这时，ELBO取最大值。
所以参数更新策略就变成了
$\begin{aligned} &q_1(Z_1;\lambda_1)=q_1^* (Z_1;\lambda_1)\\ &q_2(Z_2;\lambda_2)=q_2^* (Z_2;\lambda_2)\\ &q_3(Z_3;\lambda_3)=q_3^* (Z_3;\lambda_3)\\ &... \end{aligned}$
关于 $q_i^* (Z_i;\lambda_i)$
$\begin{aligned} q_i(Z_i;\lambda_i)&=q_i^* (Z_i;\lambda_i)\\ q_i (Z_i;\lambda_i)&=\frac{1}{C}\exp[E_{q(\overline Z_i;\overline \lambda_i)}\text{log}p(X,Z)]\\ &=\frac{1}{C}\exp[E_{q(\overline Z_i;\overline \lambda_i)}\text{log}p(X,Z_i,\overline Z_i)]\\ & \end{aligned}$
$q_i$ 是要更新的节点， $X$ 是观测的数据,由于 Markov Blanket(下面介绍)，更新公式变成：
$\log(q_i(Z_i;\lambda_i))=\int q(mb(Z_i))\log p(Z_i,mb(Z_i),X)d~mb(Z_i)$
由于式子中和 $Z_i$ 无关的项都被积分积掉了，所以写成了 Markov Blanket 这种形式

Markov Blanket

In machine learning, the Markov blanket for a node $A$ in a Bayesian network is the set of nodes $m b (A)$ composed of $A^{'} s$ parents, its children, and its children’s other parents. In a Markov random field, the Markov blanket of a node is its set of neighboring nodes.
Every set of nodes in the network is conditionally independent of $A$ when conditioned on the set $m b (A)$ , that is, when conditioned on the Markov blanket of the node $A$ . The probability has the Markov property; formally, for distinct nodes $A$ and $B$ :
$P r (A ∣ m b (A), B) = P r (A ∣ m b (A))$
The Markov blanket of a node contains all the variables that shield the node from the rest of the network. This means that the Markov blanket of a node is the only knowledge needed to predict the behavior of that node.

markov blanket

参考资料

https://en.wikipedia.org/wiki/Markov_blanket
http://edwardlib.org/tutorials/inference
http://edwardlib.org/tutorials/variational-inference

u012436149

关注

14
点赞
踩
49

收藏

觉得还不错? 一键收藏
1
评论
变分推断（variational inference）

大家对贝叶斯公式应该都很熟悉 P(Z|X)=p(X,Z)∫zp(X,Z=z)dzP(Z|X)=p(X,Z)∫zp(X,Z=z)dzP(Z|X)=\frac{p(X,Z)}{\int_z p(X,Z=z)dz}我们称P(Z|X)P(Z|X)P(Z|X)为posterior distribution。posterior distribution的计算通常是非常困难的，为什么呢？假设ZZZ是一...
复制链接

扫一扫

专栏目录