变分推理(Variational Inference)

最新推荐文章于 2024-01-17 16:45:36 发布

龙行天下258079

最新推荐文章于 2024-01-17 16:45:36 发布

阅读量705

点赞数 3

文章标签：机器学习线性代数概率论

本文链接：https://blog.csdn.net/qq_25602729/article/details/119913690

版权

给定网络参数 $\boldsymbol \omega$ , 训练数据集 $\mathbf{D} = (\mathbf{X}, \mathbf{Y})$ , 贝叶斯推断是将网络参数 $\boldsymbol \omega$ 建模为一个符合某种分布的随机变量而不是确定的值，故给定测试数据 $\mathbf{x}^{*}$ , 贝叶斯网络求取对应预测值 $\mathbf{y}^{*}$ 的公式为：
$p\left(\mathbf{y}^{*} \mid \mathbf{x}^{*}, \mathbf{X}, \mathbf{Y}\right)=\int p\left(\mathbf{y}^{*} \mid \mathbf{x}^{*}, \boldsymbol{\omega}\right) p(\boldsymbol{\omega} \mid \mathbf{X}, \mathbf{Y}) \mathrm{d} \boldsymbol{\omega}$ 上式中 $p\left(\mathbf{y}^{*} \mid \mathbf{x}^{*}, \boldsymbol{\omega}\right)$ 为网络输出，需要求的是 $p(\boldsymbol{\omega} \mid \mathbf{X}, \mathbf{Y})$ ，但是这个不存在解析解，所以便引入了变分推理来近似，用 $q(\boldsymbol{\omega})$ 来近似 $p(\boldsymbol{\omega} \mid \mathbf{X}, \mathbf{Y})$ ，所以目标函数可以指定为最小化 $q(\boldsymbol{\omega})$ 和 $p(\boldsymbol{\omega} \mid \mathbf{X}, \mathbf{Y})$ 之间的差异，即最小化： $\operatorname{KL}(q(\boldsymbol{\omega}) \mid p(\boldsymbol{\omega} \mid \mathbf{X}, \mathbf{Y}))$ 。
又因为：
$\begin{aligned} \operatorname{KL}(q(\boldsymbol{\omega}) \mid p(\boldsymbol{\omega} \mid \mathbf{X}, \mathbf{Y})) &= \int q(\boldsymbol{\omega}) \log \frac{q(\boldsymbol{\omega})}{p(\boldsymbol{\omega} \mid \mathbf{X}, \mathbf{Y})} \mathrm{d} \boldsymbol{\omega} \\ &= \int q(\boldsymbol{\omega}) \log q(\boldsymbol{\omega}) \mathrm{d} \boldsymbol{\omega} - \int q(\boldsymbol{\omega}) \log p(\boldsymbol{\omega} \mid \mathbf{X}, \mathbf{Y}) \mathrm{d} \boldsymbol{\omega} \\ &= \int q(\boldsymbol{\omega}) \log q(\boldsymbol{\omega}) \mathrm{d} \boldsymbol{\omega} - \int q(\boldsymbol{\omega}) \log \frac{p(\mathbf{Y} \mid \mathbf{X}, \boldsymbol{\omega}) p(\mathbf{X})p(\boldsymbol{\omega})}{p(\mathbf{X}, \mathbf{Y})} \mathrm{d} \boldsymbol{\omega} \\ &= \operatorname{KL}(q(\boldsymbol{\omega}) \mid p(\boldsymbol{\omega})) - \int q(\boldsymbol{\omega}) \log p( \mathbf{Y} \mid \mathbf{X}, \boldsymbol{\omega}) \mathrm{d} \boldsymbol{\omega} - p(\mathbf{X}) + p(\mathbf{X}, \mathbf{Y}) \end{aligned}$ 所以优化目标变为最小化：
$\operatorname{KL}(q(\boldsymbol{\omega}) \mid p(\boldsymbol{\omega})) - \int q(\boldsymbol{\omega}) \log p(\mathbf{Y} \mid \mathbf{X}, \boldsymbol{\omega}) \mathrm{d} \boldsymbol{\omega}$ 上式为 Evidence Lower Bound (ELBO) 的负数形式，一般是最大化 ELBO

龙行天下258079

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
变分推理(Variational Inference)

给定网络参数 ω\boldsymbol \omegaω, 训练数据集 D=(X,Y)\mathbf{D} = (\mathbf{X}, \mathbf{Y})D=(X,Y), 贝叶斯推断是将网络参数 ω\boldsymbol \omegaω 建模为一个符合某种分布的随机变量而不是确定的值，故给定测试数据 x∗\mathbf{x}^{*}x∗, 贝叶斯网络求取对应预测值y∗\mathbf{y}^{*}y∗ 的公式为：p(y∗∣x∗,X,Y)=∫p(y∗∣x∗,ω)p(ω∣X,Y)dωp\left(\ma
复制链接

扫一扫