贝叶斯变分推断

最新推荐文章于 2024-01-02 22:38:04 发布

婼谲

最新推荐文章于 2024-01-02 22:38:04 发布

阅读量720

点赞数 1

文章标签：概率论机器学习人工智能

本文链接：https://blog.csdn.net/qq_53094890/article/details/125613281

版权

贝叶斯变分推断

Abstract

现代统计学的核心问题之一是近似难以计算的概率密度。这个问题在贝叶斯统计中尤其重要，贝叶斯统计将所有关于未知量的推论都框定为涉及后验密度的计算。但在实际模型中我们很难通过简单的贝叶斯理论直接求得后验概率的公式解，因此我们寻求一个近似的解来代表后验概率。这里就可以尝试使用变分推断的方法。贝叶斯变分推断能将后验推断问题巧妙地转化为优化问题进行求解，在求解概率模型中有很广泛的运用。

Introduction

在本文中，我们将介绍贝叶斯变分推断（Variational Inference），这是一种来自机器学习的方法，通过优化来近似概率密度。VI已被用于许多应用中，并且往往比经典方法更快，例如马尔可夫链蒙特卡洛采样。

VI 是一种确定性近似推断方法，背后的想法是首先假设一个密度家族，然后找到该家族中接近目标的成员。即根据已有数据推断需要的分布p，通过变分推断的方法寻找容易表达和求解的分布q，当q和p的差距很小的时候，q就可以作为p的近似分布，成为输出结果了。这里的接近度是通过 KL散度( Kullback–Leibler divergence) 来衡量的。

它与MCMC方法不同，MCMC方法是利用马尔科夫链取样来近似后验概率，变分法是利用优化结果来近似后验概率。首先，MCMC相较于变分法计算上消耗更大，但是它可以保证取得与目标分布相同的样本；而变分法没有这个保证，它只能寻找到近似于目标分布一个密度分布，因此变分法计算上更快。所以当数据量较小时我们可以用MCMC方法消耗更多的计算力但得到更精确的样本，当数据量较大时我们用变分法处理比较合适。

Method

【问题】

观测数据：X

隐变量：Z

目的：求数据的后验概率p (z∣x)

【思路】

首先，我们要求的公式为：

$p (Z ∣ X) = p (X) p (X, Z) $

然而在实际应用中，p（X）往往十分复杂，不易计算。因此我们就需要通过用一个q ( Z ) 的分布来近似真实的p ( Z ) 分布。为了达到该目的，我们需要一个能刻画两个分布之间逼近程度的度量，这里就引入 KL 散度的概念。

[KL散度]( (60条消息) KL 散度 (Kullback-Leibler divergence)_连理o的博客-CSDN博客_kl散度 )又可称为相对熵或信息散度，描述两个概率分布 P 和 Q 的差异或相似性，公式为：

$K L (P ∣ ∣ Q) = \int p (x) l o g (p (x) / q (x) ) d x$

将公式展开，可得：

$K L (P ∣ ∣ Q) = \int p (x) l o g p (x) d x - \int p (x) l o g q (x) d x = - H (P) + H (P, Q)$

有了散度的概念，我们再对之前的概率公式进行变换：

$p (X) = p (X, Z) / p (Z ∣ X) $

在等式两边同时取对数：

$KaTeX parse error: No such environment: align* at position 8: \begin{̲a̲l̲i̲g̲n̲*̲}̲ &logP(X)=log …$

对于左边的式子logp(X)求Z的期望得：

$E(logp(X))=\int_{Z}{logp(X)q(Z)}dZ=logp(X)\int_{Z}{q(Z)}dZ$

$由于\int_{Z}{q(Z)}dZ=1：\\ E(logp(x))=logp(X)$

对于右边的式子变换得：

$\\ =\int_{Z} q(Z)logp(X,Z)dZ−\int_{Z} q(Z)logq(Z)dZ + \int_{Z} +q(Z)log (q(Z)/ p(Z|X)) dZ $

其中各项可以分为下面两个值：

$ELBO=\int_{Z} q(Z)logp(X,Z)dZ−\int_{Z} q(Z)logq(Z)dZ$

$KL(q(Z)||p(Z|X))=\int_{Z} q(Z)log (q(Z)/ p(Z|X)) dZ$

由于KL散度是描述两个概率分布 P 和 Q 的差异的，所以我们希望这个值尽可能小以寻求到最优解。但是显然我们无法直接求出KL的值然后让它变小，因为P(Z|X)我们并不知道。于是很容易想到我们可以求ELBO的值并使它变大。

最大化[ELBO]( ELBO，全称为 Evidence Lower Bound，即证据下界。这里的证据指数据或可观测变量的概率密度。 )（经典平均场理论）：

假设变分后验分式是一种完全可分解的分布：

$q(z)=\prod_{i=1}^{M}{z_i}$

也就是认为每个Zi 都是相互独立的, 这样将高维的参数转化成了低维，带入ELBO中:

$\int_Z logp(X,Z)q(Z)dZ− \int_Z logq(Z)q(Z)dZ \\=\int_Z logp(X,Z) \prod_{i=1}^{M}{qi(zi)} dZ−\int_Z \sum_{i=1}^{M}{logq(Z)} \prod_{i=1}^{M}{qi(zi)}dZ$

前半截公式变换( 将整个集合的Z拆解成一个个z进行积分 )：

$$
\int_Z

logp(X,Z)
\prod_{i=1}^{M}{qi(zi)}

dZ=
\int_{z1}
\int_{z2}
…\int_{zM}

q
i

(z
i

)log(p(X,Z))dz
1

dz
2

…dz
M

$$

我们这里特意提出第Zj个隐变量，将其他项的都积分掉，这样就可以留下含有Zj项的式子：

$=\int_{zj}qj(zj) [\int_{z1} \int_{z2} ...\int_{zM} qi(zi)log(p(X,Z))dz1dz2...dzM]dj\\ =\int_{z_j}q_j(z_j)E_{\prod_{i\neq j}^Mq_i(z_i)}[logp(X,Z)]dz_j$

这里我们做一步近似：

$E_{\prod_{i\neq j}^Mq_i(z_i)}[logp(X,Z)]=log \hat p(X,z_j)$

那么前半截式子最终可以化成：

$\int_Z logp(X,Z) \prod_{i=1}^{M}{qi(zi)} dZ= \int_{z_j}q_j(z_j)log \hat p(X,z_j)dz_j$

然后对后半截公式进行变换：

$\int_Z \sum_{i=1}^{M}{logq(Z)} \prod_{i=1}^{M}{qi(zi)}dZ =\int_Z \prod_{i=1}^{M}{qi(zi)}dZ [logq 1 (z 1 )+logq 2 (z 2 )+...+logq M (z M )]dZ$

为了找出该式子的通项公式，现在我们假定M=2则有：

$\int_{z1} \int_{z2} [logq 1 (z 1 )+logq 2 (z 2 )]q 1 (z 1 )q 2 (z 2 )dz 1 dz 2 \\= \int_{z1} \int_{z2} q 1 (z 1 )q 2 (z 2 )logq 1 (z 1 )dz 1 dz 2 +\int_{z1} \int_{z2} q 1 (z 1 )q 2 (z 2 )logq 2 (z 2 )dz 1 dz 2 \\=\int_{z1}q1(z1)logq1(z1)\int_{z2}q2(z2)dz2dz1 +\int_{z2}q2(z2)logq2(z2)\int_{z1}q1(z1)dz1dz2$

$由于\int_{z2}q2(z2)dz2=1，\int_{z1}q1(z1)dz1=1 \\原式=\sum_{i=1}^{2}\int_{zi}{qi(zi)logq(zi)}dzi$

因此推出通项公式为：

$\int_Z \sum_{i=1}^{M}{logq(Z)} \prod_{i=1}^{M}{qi(zi)}dZ= \sum_{i=1}^{M}\int_{zi}{qi(zi)logq(zi)}dzi$

这里我们关注的是第j项（迭代项）的结果，因此将其他项全看做常数C，则结果转变为：

$\int_Z \sum_{i=1}^{M}{logq(Z)} \prod_{i=1}^{M}{qi(zi)}dZ =\int_{zi}{qi(zi)logqi(zi)}dzi+C$

那么将两个化简后式子合并得到ELBO最终的表达式：

$ELBO=\int_{z_j}q_j(z_j)log \hat p(X,z_j)dz_j -(\int_{zi}{qi(zi)logqi(zi)}dzi+C)\\ =\int_{z_j}q_j(z_j)log( \hat p(X,z_j)/qi(zi))dz_j+C \\=-KL(qj(zj)||\hat p(X,z_j))$