变分推断(Variational Inference)-mean field

最新推荐文章于 2024-03-23 11:32:32 发布

VIP文章 JRRG

最新推荐文章于 2024-03-23 11:32:32 发布

阅读量1.3w

点赞数 8

文章标签：变分推断平均场

本文链接：https://blog.csdn.net/step_forward_ml/article/details/78077383

版权

所谓推断，即是在概率图模型中计算未观测变量(变量集)的后验分布；然后根据推测出的未观测变量与观察变量一起进行参数学习。注意如果将待学习参数也当作变量，那么参数学习也类似于推断问题。推断分为精确推断和近似推断，因精确推断往往需要很大的计算开销，所以近似推断在现实应用中跟为常用。近似推断分为基于确定性的变分推断和基于随机性的采样方法。本文将深入探讨变分推断的原理与技术细节。
假设在贝叶斯模型中， $X$ 代表观测变量集， $Z$ 代表隐变量集和参数集， $p(X,Z)$ 为相应的联合概率分布。在EM算法深入理解中，我们能得到如下关系：

ln p (X | θ) = L (q, θ) + K L (q | | p)

$\ln p(X|\theta)=L(q,\theta)+KL(q||p)$
其中

L (q, θ) = \sum Z q (Z) ln p ( X , Z | θ ) q ( Z ) K L (q | | p) = - \sum Z q (Z) ln p ( Z | X , θ ) q ( Z )

$\begin{array}{c} L(q,\theta) = \sum_Z q(Z) \ln \frac{p(X,Z|\theta)}{q(Z)} \\ KL(q||p)=-\sum_Z q(Z) \ln \frac{p(Z|X,\theta)}{q(Z)} \end{array}$

可知，在参数的学习中我们使用EM算法，即避开观察数据的对数似然函数 $\ln p(X|\theta)$ 的难以优化求解而利用其下界 $L(q,\theta)$ 进行计算。其中， $q(Z)$ 的选择，我们直接采用其后验概率而使得下界与目标优化函数取等。然而遗憾的是，在概率图模型当中，隐变量 $Z$ 的后验分布很难通过贝叶斯公式求解，主要是因为分母中 $p(X)$ 的积分项的存在。因此，变分推断的实质就是使用已知简单分布来逼近需要推断的复杂分布，并通过限制近似分布的类型，从而得到一种局部最优，但具有确定解的近似后验分布。

1. 数学原理

平均场假设复杂的多变量 $Z$ 可拆分为一系列相互独立的多变量 $Z_i$ ， $i=1,\cdots,M$ ，且 $q$ 分布可以因子化为这些多变量集的乘积：

q (Z) = \prod_{i = 1}^{M} q_{i} (Z_{i})

$q(Z)=\prod_{i=1}^Mq_i(Z_i)$

$q_i(Z_i)$ 简写为 $q_i$ ，那么下界 $L(q)$ 可变为(注意这里的参数 $\theta$ 融入进了隐变量)：

L(q)=∫∏iqi{ lnp(X,Z)−∑ilogqi}dZ=∫qj{ ∫lnp(X,Z)∏i≠jqidZi}dZj−∫qjlnqjdZj+const=∫qjlogp^(X,Zj)dZj−∫qjlnqjdZj+const L ( q ) = ∫ ∏ i q i { ln ⁡ p ( X , Z ) − ∑ i l o g q i } d Z = ∫ q j { ∫ ln ⁡ p ( X , Z ) ∏ i ≠ j q i d Z i } d Z j − ∫ q j ln ⁡ q j d Z j + c o n s t = ∫ q j l o g p ^ ( X , Z j ) d Z j − ∫ q j ln ⁡ q j d Z j + c o n s t

$\begin{array}{c} L(q) = \int \prod_iq_i \left\{ \ln p(X,Z) -\sum_i log\, q_i\right\}dZ \\ =\int q_j \left\{\int \ln p(X,Z)\prod_{i \neq j}q_idZ_i \right\}dZ_j-\int q_j\ln q_jdZ_j+const \\ =\int q_j \, log \, \hat{p}(X,Z_j)dZ_j-\int q_j\ln q_jdZ_j+const \end{array}$

注意这里的 Z