变分贝叶斯

最新推荐文章于 2023-10-29 00:08:16 发布

独自赏晴雨

最新推荐文章于 2023-10-29 00:08:16 发布

阅读量286

点赞数 1

分类专栏：机器学习贝叶斯文章标签：算法

本文链接：https://blog.csdn.net/m0_49271156/article/details/128347228

版权

Variational Bayesian inference

参考文献

徐亦达老师变分推断课件

A tutorial on variational Bayesian inference

白板推导指数族分布

白板推导变分推断

Log-likelihood and Evidence Lower Bound(ELOB)

下列表达式总是成立：
$\ln(p(X)) = \ln(p(X,Z)) - \ln(P(Z\mid X))$
所以下式也成立：
$\ln(P(X)) = \left[\ln(p(X,Z))-\ln(q(Z))\right] - \left[\ln(p(Z\mid X))-\ln(q(Z))\right]$
所以现在我们有
$\ln(p(X)) = \ln\left(\frac{p(X,Z)}{q(Z)}\right) - \ln\left(\frac{p(Z\mid X)}{q(Z)}\right)$
两边同时取期望：
$\begin{aligned} \ln (p(X)) &=\int q(Z) \ln \left(\frac{p(X, Z)}{q(Z)}\right) \mathrm{d} Z-\int q(Z) \ln \left(\frac{p(Z \mid X)}{q(Z)}\right) \mathrm{d} Z \\ &=\underbrace{\int q(Z) \ln (p(X, Z)) \mathrm{d} Z-\int q(Z) \ln (q(Z)) \mathrm{d} Z}_{\mathcal{L}(q)}+\underbrace{\left(-\int q(Z) \ln \left(\frac{p(Z \mid X)}{q(Z)}\right) \mathrm{d} Z\right)}_{\mathbb{K} \mathbb{L}(q \| p)} \\ &=\mathcal{L}(q)+\mathbb{K} \mathbb{L}(q \| p) \end{aligned}$
KL散度一般用于度量两个概率分布函数之间的距离，其定义如下：
$\mathbb{KL}[p(X)\mid q(X)] = \sum_{x\in X}\left[p(x)\log\frac{p(x)}{q(x)}\right] = \mathbb{E}_{x\sim p(x)}\left[\log\frac{p(x)}{q(x)}\right]$
我们要做的就是找到与后验分布 $p(Z\mid X)$ 最接近的简单分布 $p (Z)$ 。

Alternative Evidence Lower Bound(ELOB)

我们看另一种推导方法：
$\begin{aligned} \ln (p(X)) &=\log \int_{Z} p(X, Z) \mathrm{d} z \\ &=\log \int_{Z} p(X, Z) \frac{q(Z)}{q(Z)} \mathrm{d} z \\ &=\log \left(\mathbb{E}_{q}\left[\frac{p(X, Z)}{q(Z)}\right]\right) \\ & \geq \mathbb{E}_{q}\left[\log \left(\frac{p(X, Z)}{q(Z)}\right)\right] \text { using Jensen's inequality } \\ &=\mathbb{E}_{q}[\log (p(X, Z))]-\mathbb{E}_{q}[\log (q(Z))] \\ & \triangleq \mathcal{L}(q) \end{aligned}$

Maximize Evidence Lower Bound(ELOB)

我们给每个部分一个名字：
$\begin{array}{ll} \text {Evidence Lower Bound (ELOB):} & \mathcal{L}(q)=\int q(Z) \ln (p(X, Z)) \mathrm{d} Z-\int q(Z) \ln (q(Z)) \mathrm{d} Z \\ \mathrm{KL} \text { divergence: } & \mathbb{K} \mathbb{L}(q \| p)=-\int q(Z) \ln \left(\frac{p(Z \mid X)}{q(Z)}\right) d Z \end{array}$

注意 $p (X)$ 对于 $q (Z)$ 的选择是固定的。我们想要去选择一个 $q (Z)$ 函数最小化KL散度，因此 $q (Z)$ 变得离 $p(Z\mid X)$ 越来越近。很容易验证，当 $q(Z)=p(Z\mid X)$ 时，KL散度为 $0$ 。
我们知道 $\ln p(X) = \mathcal{L}(q)+\mathbb{KL}(q\| p)$ 。最小化 $\mathbb{KL}(q\| p)$ 等同于最大化 $\mathcal{L}(q)$ 。

我们可以选择 $q (Z)$ 使得
$\prod_{i=1}^Mq_i(Z_i)$
其中 $M$ 为 $Z$ 的维度，也就是说 $q (Z)$ 的各个维度是独立的，这被称为平均场变分贝叶斯。

注意 $q (Z)$ 对联合概率密度函数 $p(Z\mid X)$ 是一个很好地近似，但是边缘分布 $q(Z_i)$ 对 $p(Z_i\mid x)$ 的近似不一定好。

将其带入到 $\mathcal{L}(q)$ 中：
$\begin{aligned} \mathcal{L}(q) &=\int q(Z) \ln (p(X, Z)) \mathrm{d} Z-\int q(Z) \ln (q(Z)) \mathrm{d} Z \\ &=\underbrace{\int \prod_{i=1}^{M} q_{i}\left(Z_{i}\right) \ln (p(X, Z)) \mathrm{d} Z}_{\text {part (1) }}-\underbrace{\int \prod_{i=1}^{M} q_{i}\left(Z_{i}\right) \sum_{i=1}^{M} \ln \left(q_{i}\left(Z_{i}\right)\right) \mathrm{d} Z}_{\text {part (2) }} \end{aligned}$
我们先看Part1，假设我们只对 $Z_i$ 感兴趣，将其拿出来，变为：
$(\operatorname{Part} 1)=\int_{Z_{j}} q_{j}\left(Z_{j}\right)\left(\int_{Z_{i \neq j}} \ldots \int \prod_{i \neq j}^{M} q_{i}\left(Z_{i}\right) \ln (p(X, Z)) \prod_{i \neq j}^{M} d Z_{i}\right) d Z_{j}$
或者将其写为更紧凑的形式：
$(\operatorname{Part} 1)=\int_{Z_{j}} q_{j}\left(Z_{j}\right)\left(\int_{Z_{i \neq j}} \cdots \int \ln (p(X, Z)) \prod_{i \neq j}^{M} q_{i}\left(Z_{i}\right) d Z_{i}\right) d Z_{j}$
或者，为了让其更具有意义，可以将其放进一个期望函数里：
$(\operatorname{Part} 1)=\int_{Z_{j}} q_{j}\left(Z_{j}\right)\left[\mathbb{E}_{i \neq j}[\ln (p(X, Z))]\right] d Z_{j}$
现在再看Part2：
$(\text { Part 2) }=\int \prod_{i=1}^{M} q_{i}(Z_{i}) \sum_{i=1}^{M} \ln \left(q_{i}(Z_{i}\right)) d Z$
将其化简：
$\begin{aligned} \operatorname{(Part2)} &= \int q(Z)\sum_{i=1}^M\ln(q_i(Z_i))dZ\\ &=\sum_{i=1}^M\int_{Z}q(Z_1,\cdots,Z_M)\ln(q_i(Z_i))dZ\\ &=\sum_{i=1}^M\int_{Z_i}q_i(Z_i)\ln(q_i(Z_i))dZ_i \end{aligned}$