变分推断（variational inference）

最新推荐文章于 2024-09-29 08:56:03 发布

qq_40823914

最新推荐文章于 2024-09-29 08:56:03 发布

阅读量1k

点赞数

变分推断（variational inference）

原创 2017年02月12日 12:13:49

标签：

variational inference

大家对贝叶斯公式应该都很熟悉

P (Z | X) = p ( X , Z ) \int z p ( X , Z = z ) d z

我们称 P(Z|X) 为posterior distribution。posterior distribution的计算通常是非常困难的，为什么呢？
假设 Z 是一个高维的随机变量，如果要求 P(Z=z|X=x) ,我们不可避免的要计算 ∫zp(X=x,Z=z)dz ,由于 Z 是高维随机变量，这个积分是相当难算的。

variational inference就是用来计算posterior distribution的。

core idea

variational inference的核心思想包含两步：

假设分布 q(z;λ) (这个分布是我们搞得定的，搞不定的就没意义了)
通过改变分布的参数 λ , 使 q(z;λ) 靠近 p(z|x)

总结称一句话就是，用一个简单的分布( q(z;λ) )拟合复杂的分布( p(z|x) )

这种策略将计算 p(z|x) 的问题转化成优化问题了

λ * = a r g m i n λ d i v e r g e n c e (p (z | x), q (z; λ))

收敛后，就可以用

q(z;λ) 来代替

p(z|x) 了

公式推倒

log P (x) = log P (x, z) - log P (z | x) = log P ( x , z ) Q ( z ; λ ) - log P ( z | x ) Q ( z ; λ )

等式的两边同时对分布

Q(z) 求期望，得

E q (z; λ) log P (x) log P (x) log P (x) = E q (z; λ) log P (x, z) - E q (z; λ) log P (z | x) = E q (z; λ) log p ( x , z ) q ( z ; λ ) - E q (z; λ) log p ( z | x ) q ( z ; λ ) = K L (q (z; λ) | | p (z | x)) + E q (z; λ) log p ( x , z ) q ( z ; λ ) = K L (q (z; λ) | | p (z | x)) + E q (z; λ) log p ( x , z ) q ( z ; λ )

我们的目标是使

q(z:λ) 靠近

p(z|x) ,就是

minmizeλKL(q(z;λ)||p(z|x)) ,由于

KL(q(z;λ)||p(z|x)) 中包含

p(z|x) ，这项非常难求。将

λ 看做变量时，

logP(x) 为常量，所以，

minmizeλKL(q(z;λ)||p(z|x)) 等价于

maxmizeλEq(z;λ)logp(x,z)q(z;λ) 。

Eq(z;λ)[logp(x,z)−logq(z;λ)] 称为Evidence Lower BOund( ELBO)。

现在，variational inference的目标变成

m a x m i z e λ E q (z; λ) [log p (x, z) - log q (z; λ)]

为什么称之为ELBO呢？
p(x) 一般被称之为evidence，又因为 KL(q||p)>=0 , 所以 p(x)>=Eq(z;λ)[logp(x,z)−logq(z;λ)] , 这就是为什么被称为ELBO

ELBO

继续看一下ELBO

E L B O (λ) = E q (z; λ) [log p (x, z) - log q (z; λ)] = E q (z; λ) log p (x, z) - E q (z; λ) log q (z; λ) = E q (z; λ) log p (x, z) + H (q)

The first term represents an energy. The energy encourages

q to focus probability mass where the model puts high probability,

p(x,z) . The entropy encourages

q to spread probability mass to avoid concentrating to one location.

q(Z)

Z 包含K个独立部分(K 维，当然，第i维也可能是高维向量)，我们假设：

q (Z; λ) = \prod k = 1 K q k (Z k; λ k)

这个被称为 mean field approximation。关于 mean field approximation， https://metacademy.org/graphs/concepts/mean_field
ELBO则变成

E L B O (λ) = E q (Z; λ) log p (X, Z) - E q (z; λ) log q (Z; λ) = \int q (Z; λ) log p (X, Z) d Z - \int q (Z; λ) log q (Z; λ) d Z = \int [\prod k = 1 K q k (Z k; λ k)] log p (X, Z) d Z - \int [\prod k = 1 K q k (Z k; λ k)] log q (Z; λ) d Z

第一项为 energy，第二项为 H(q)

energy

符号的含义：

Z = {Z j, Z ¯ ¯ ¯ j}, Z ¯ ¯ ¯ j = Z ∖ Z j

λ = {λ j, λ ¯ j}, λ ¯ j = λ ∖ λ j

先处理第一项：

\int [\prod k = 1 K q k (Z k; λ k)] log p (X, Z) d Z = \int Z j q j (Z j; λ j) \int Z ¯ j [\prod k = 1, k \neq j K q k (Z k; λ k)] log p (X, Z) d Z ¯ ¯ ¯ j d Z j = \int Z j q j (Z j; λ j) [E q (Z ¯ j; λ ¯ j) log p (X, Z)] d Z j = \int Z j q j (Z j; λ j) {log exp [E q (Z ¯ j; λ ¯ j) log p (X, Z)]} d Z j = \int Z j [q j (Z j; λ j) log q * j (Z j; λ j) + log C] d Z j

其中

q∗j(Zj;λj)=1Cexp[Eq(Z¯j;λ¯j)logp(X,Z)] ,

C 保证

q∗j(Zj;λj) 是一个分布。

C 与分布的参数

λ¯j 有关，与变量无关！！

H(q)

再处理第二项：

\int [\prod k = 1 K q k (Z k; λ k)] log q (Z; λ) d Z = \int [\prod k = 1 K q k (Z k; λ k)] \sum n = 1 K log q (Z n; λ) d Z = \sum j \int [\prod k = 1 K q k (Z k; λ k)] log q (Z j; λ j) d Z = \sum j \int [\prod k = 1 K q k (Z k; λ k)] log q (Z j; λ j) d Z = \sum j \int Z j q j (Z j; λ j) log q (Z j; λ j) d Z j \int [\prod k = 1, k \neq j K q k (Z k; λ k)] d Z ¯ ¯ ¯ j = \sum j \int Z j q j (Z j; λ j) log q (Z j; λ j) d Z j

再看ELBO

经过上面的处理，ELBO变为

E L B O = \int Z i q i (Z i; λ j) log q * i (Z i; λ i) d Z i - \sum j \int Z j q j (Z j; λ j) log q (Z j; λ j) d Z j + log C = {\int Z i q i (Z i; λ j) log q * i (Z i; λ i) d Z i - \int Z i q i (Z i; λ j) log q (Z i; λ i) d Z i} + H (q (Z ¯ ¯ ¯ i; λ ¯ i)) + log C

再看上式

{} 中的项：

\int Z i q i (Z i; λ j) log q * i (Z i; λ i) d Z i - \int Z i q i (Z i; λ j) log q (Z i; λ i) d Z i = - K L (q i (Z i; λ j) | | q * i (Z i; λ i))

所以ELBO又可以写成：

E L B O = - K L (q i (Z i; λ j) | | q * i (Z i; λ i)) + H (q (Z ¯ ¯ ¯ i; λ ¯ i)) + log C

我们要

maxmizeELBO ，如何更新

qi(Zi;λi) 呢？
从

E L B O = - K L (q i (Z i; λ i) | | q * i (Z i; λ i)) + H (q (Z ¯ ¯ ¯ i; λ ¯ i)) + log C

可以看出，当

qi(Zi;λj)=q∗i(Zi;λi) 时，

KL(qi(Zi;λj)||q∗i(Zi;λi))=0 。这时，ELBO取最大值。
所以参数更新策略就变成了

q 1 (Z 1; λ 1) = q * 1 (Z 1; λ 1) q 2 (Z 2; λ 2) = q * 2 (Z 2; λ 2) q 3 (Z 3; λ 3) = q * 3 (Z 3; λ 3) . . .

关于

q∗i(Zi;λi)

q i (Z i; λ i) q i (Z i; λ i) = q * i (Z i; λ i) = 1 C exp [E q (Z ¯ i; λ ¯ i) log p (X, Z)] = 1 C exp [E q (Z ¯ i; λ ¯ i) log p (X, Z i, Z ¯ ¯ ¯ i)]

qi 是要更新的节点，

X 是观测的数据,由于 Markov Blanket(下面介绍)，更新公式变成：

log (q i (Z i; λ i)) = \int q (m b (Z i)) log p (Z i, m b (Z i), X) d m b (Z i)

由于式子中和

Zi 无关的项都被积分积掉了，所以写成了 Markov Blanket 这种形式

Markov Blanket

In machine learning, the Markov blanket for a node A in a Bayesian network is the set of nodes mb(A) composed of A′s parents, its children, and its children’s other parents. In a Markov random field, the Markov blanket of a node is its set of neighboring nodes.
Every set of nodes in the network is conditionally independent of A when conditioned on the set mb(A) , that is, when conditioned on the Markov blanket of the node A . The probability has the Markov property; formally, for distinct nodes A and B :

P r (A | m b (A), B) = P r (A | m b (A))

The Markov blanket of a node contains all the variables that shield the node from the rest of the network. This means that the Markov blanket of a node is the only knowledge needed to predict the behavior of that node.

markov blanket