变分推断的数学推导

最新推荐文章于 2023-12-25 16:54:02 发布

HEGSNS

最新推荐文章于 2023-12-25 16:54:02 发布

阅读量654

点赞数 1

本文链接：https://blog.csdn.net/HEGSNS/article/details/104844864

版权

这里只给出变分推断的数学推导（变分颇为高深，这里只是简单介绍一下基本概念，想了解更多详见：https://blog.csdn.net/weixin_40255337/article/details/83088786）：

变分推断的目的是构造 $\theta)$ ，通过优化得到最优的 θ*，从而使得 q(w| θ) 逼近未知的后验分布 P(w |X)。

由贝叶斯公式可知：
$\frac{P(X,w)}{P(w | X)}$
等式两边取对数：
$\log P(X) = \log P(X, w) - \log P(w |X)$
等式右侧 $+\log q(w| θ)$ 再 $\log q(w | θ)$ ：
$\log P(X) = \log \frac{P(X, w) }{q(w| θ)} -\log \frac{P(w | X)}{q(w | θ)}$
等式两侧对 $w$ （服从分布 $\theta)$ ）取期望，由于等式左侧与 $\theta)$ 无关，因此有：
$\log P(X) = \mathbb{E} \big[ \log P(X | w) + \log P(w) - \log q(w| \theta) \big] + \mathbb{E} \Bigg[ \log \frac{q(w| θ)}{P(w| X)} \Bigg]$

等式左侧为定值，右侧第一项为定义为ELBO，第二项为 $KL\{q(w| θ) || P(w| X)\}$ ，即：
$ELBO+ KL\{q(w| θ) || P(w| X)\} = Constant$
因此 $\arg \min_\theta KL\{q(w| θ) || P(w| X)\} = \arg\max ELBO$ 。
论文原文中的ELBO还有另一种形式：
$\begin{aligned} EBLO &= \mathbb{E} \big[ \log P(X | w) + \log P(w) - \log q(w| \theta) \big] \\ &= \mathbb{E} \big[ \log P(X | w) \big] - \mathbb{E} \Bigg[ \log \frac{q(w| \theta)}{P(w)} \Bigg] \\ &= \int q(w | \theta) \log P(X | w) dw - KL\{ q(w| \theta) || P(w) \} \end{aligned}$

而对于一个深度学习问题，给定数据集D，神经网络的参数为 $w$ ，输出为 $P (D ∣ w)$ 。

HEGSNS

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
变分推断的数学推导

这里只给出变分推断的数学推导（变分颇为高深，这里只是简单介绍一下基本概念，想了解更多详见：https://blog.csdn.net/weixin_40255337/article/details/83088786）：变分推断的目的是构造 q(w∣θ)q(w| \theta)q(w∣θ) ，通过优化得到最优的 θ*，从而使得 q(w| θ) 逼近未知的后验分布 P(w |X)。由贝叶斯公式可知...
复制链接

扫一扫