坐标上升变分推断( Coordinate Ascent Variational Inference, CAVI)

最新推荐文章于 2024-09-03 12:28:49 发布

吊儿郎当的凡

最新推荐文章于 2024-09-03 12:28:49 发布

阅读量655

点赞数 2

文章标签：概率论机器学习模式识别

本文链接：https://blog.csdn.net/weixin_43269419/article/details/122030317

版权

变分推断是为了近似获得 $P (Z ∣ X)$ ，即隐状态的后验分布。
$\begin{aligned} log P(X) &= log P(X, Z) - log P(Z | X) \\ &= log \frac{P(X, Z)}{q(Z)} - log \frac{P(Z | X)}{q(Z)} \end{aligned}$
对两边求 $q (Z)$ 的期望
$\begin{aligned} E_{q(Z)}[log P(X)] &= \int q(Z) log P(X) dZ \\ &= log P(X) \int q(Z) dZ \\ &= log P(X) \end{aligned}$
所以
$\begin{aligned} log P(X) &= \int q(Z) log \frac{P(X, Z)}{q(Z)} dZ - \int q(Z) \frac{P(Z | X)}{q(Z)} dZ \\ &= \mathcal{L}(q) + KL(q \| p) \end{aligned}$
不了解KL散度的同学可以参考这篇文章：如何理解K-L散度（相对熵）
为了使 $q (Z)$ 满足 $P (Z ∣ X)$ 的分布，应最小化 $\| p)$ 。 $X$ 为可观测变量，即 $l o g P (X)$ 为常值。所以，最小化 $\| p)$ 与最大化 $\mathcal{L}(q)$ 等价。
假设 $\prod_i q_i(Z_i)$
$\begin{aligned} \mathcal{L}(q) &= \int q(Z) [ log P(X, Z) - log q(Z)] dZ \\ &= \int \prod_i q_i(Z_i)log P(X, Z) dZ - \int \prod_i q_i(Z_i) log \prod_i q_i(Z_i) dZ \\ &= \int q_j(Z_j) [\int \prod_{i \ne j} q_i(Z_i)log P(X, Z) dZ_i] dZ_j - \int \sum_j q_j(Z_j) log q_j(Z_j) [\prod_{i \ne j} q_i(Z_i) dZ_i] dZ_j\\ &= \int q_j(Z_j) [\int \prod_{i \ne j} q_i(Z_i)log P(X, Z) dZ_i] dZ_j - \sum_i \int q_i(Z_i) log q_i(Z_i) dZ_i \\ &= \int q_j(Z_j) E_{q_i(Z_i), i \ne j}[log P(X, Z)] dZ_j - \int q_j(Z_j) log q_j(Z_j) dZ_j + \sum_{i \ne j} \int q_i(Z_i) log q_i(Z_i) dZ_i \\ &= \int q_j(Z_j) log \widetilde{P}(X, Z_j) dZ_j - \int q_j(Z_j) log q_j(Z_j) dZ_j + \sum_{i \ne j} \int q_i(Z_i) log q_i(Z_i) dZ_i \\ &= -KL(q_j(Z_j) || \widetilde{P}(X, Z_j)) + \sum_{i \ne j} \int q_i(Z_i) log q_i(Z_i) dZ_i \end{aligned}$
定义 $\widetilde{P}(X, Z_j) = E_{q_i(Z_i), i \ne j}[log P(X, Z)]$
CAVI 的思想是当迭代 $q_j(Z_j)$ 时，固定其他 $q_i(Z_i), i \ne j$ ，所以
$\mathcal{L}(q) = -KL(q_j(Z_j) || \widetilde{P}(X, Z_j)) + const$
为了最大化 $\mathcal{L}(q)$ 就是使 $q_j(Z_j) = \widetilde{P}(X, Z_j)$ ，即
$q_j^*(Z_j) = exp(E_{q_i(Z_i), i \ne j}[log P(X, Z)])$
为了使 $\sum_{Z_j} q_j^*(Z_j) = 1$ ，将上面的式子进行标准化，可得
$q_j^*(Z_j) = \frac{exp(E_{q_i(Z_i), i \ne j}[log P(X, Z)])}{\int exp(E_{q_i(Z_i), i \ne j}[log P(X, Z)]) dZ_j}$
迭代直至收敛，即为我们所希望求得的隐状态后验。

Reference
[1]Bishop, C. (2006). Pattern Recognition and Machine Learning. Springer New York

吊儿郎当的凡

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
坐标上升变分推断( Coordinate Ascent Variational Inference, CAVI)

变分推断是为了近似获得 P(Z∣X)P(Z | X)P(Z∣X) ，即隐状态的后验分布。logP(X)=logP(X,Z)−logP(Z∣X)=logP(X,Z)q(Z)−logP(Z∣X)q(Z)\begin{aligned} log P(X) &= log P(X, Z) - log P(Z | X) \\ &= log \frac{P(X, Z)}{q(Z)} - log \frac{P(Z | X)}{q(Z)}\end{aligned}logP(X)=logP(X,Z
复制链接

扫一扫