变分推断的数学推导

这里只给出变分推断的数学推导(变分颇为高深,这里只是简单介绍一下基本概念,想了解更多详见:https://blog.csdn.net/weixin_40255337/article/details/83088786):

变分推断的目的是构造 q ( w ∣ θ ) q(w| \theta) q(wθ) ,通过优化得到最优的 θ*,从而使得 q(w| θ) 逼近未知的后验分布 P(w |X)。

由贝叶斯公式可知:
P ( X ) = P ( X , w ) P ( w ∣ X ) P(X) = \frac{P(X,w)}{P(w | X)} P(X)=P(wX)P(X,w)
等式两边取对数:
log ⁡ P ( X ) = log ⁡ P ( X , w ) − log ⁡ P ( w ∣ X ) \log P(X) = \log P(X, w) - \log P(w |X) logP(X)=logP(X,w)logP(wX)
等式右侧 + log ⁡ q ( w ∣ θ ) +\log q(w| θ) +logq(wθ) − log ⁡ q ( w ∣ θ ) - \log q(w | θ) logq(wθ)
log ⁡ P ( X ) = log ⁡ P ( X , w ) q ( w ∣ θ ) − log ⁡ P ( w ∣ X ) q ( w ∣ θ ) \log P(X) = \log \frac{P(X, w) }{q(w| θ)} -\log \frac{P(w | X)}{q(w | θ)} logP(X)=logq(wθ)P(X,w)logq(wθ)P(wX)
等式两侧对 w w w(服从分布 q ( w ∣ θ ) q(w| \theta) q(wθ))取期望,由于等式左侧与 q ( w ∣ θ ) q(w| \theta) q(wθ) 无关,因此有:
log ⁡ P ( X ) = E [ log ⁡ P ( X ∣ w ) + log ⁡ P ( w ) − log ⁡ q ( w ∣ θ ) ] + E [ log ⁡ q ( w ∣ θ ) P ( w ∣ X ) ] \log P(X) = \mathbb{E} \big[ \log P(X | w) + \log P(w) - \log q(w| \theta) \big] + \mathbb{E} \Bigg[ \log \frac{q(w| θ)}{P(w| X)} \Bigg] logP(X)=E[logP(Xw)+logP(w)logq(wθ)]+E[logP(wX)q(wθ)]

等式左侧为定值,右侧第一项为定义为ELBO,第二项为 K L { q ( w ∣ θ ) ∣ ∣ P ( w ∣ X ) } KL\{q(w| θ) || P(w| X)\} KL{q(wθ)P(wX)},即:
E L B O + K L { q ( w ∣ θ ) ∣ ∣ P ( w ∣ X ) } = C o n s t a n t ELBO+ KL\{q(w| θ) || P(w| X)\} = Constant ELBO+KL{q(wθ)P(wX)}=Constant
因此 arg ⁡ min ⁡ θ K L { q ( w ∣ θ ) ∣ ∣ P ( w ∣ X ) } = arg ⁡ max ⁡ E L B O \arg \min_\theta KL\{q(w| θ) || P(w| X)\} = \arg\max ELBO argminθKL{q(wθ)P(wX)}=argmaxELBO
论文原文中的ELBO还有另一种形式:
E B L O = E [ log ⁡ P ( X ∣ w ) + log ⁡ P ( w ) − log ⁡ q ( w ∣ θ ) ] = E [ log ⁡ P ( X ∣ w ) ] − E [ log ⁡ q ( w ∣ θ ) P ( w ) ] = ∫ q ( w ∣ θ ) log ⁡ P ( X ∣ w ) d w − K L { q ( w ∣ θ ) ∣ ∣ P ( w ) } \begin{aligned} EBLO &= \mathbb{E} \big[ \log P(X | w) + \log P(w) - \log q(w| \theta) \big] \\ &= \mathbb{E} \big[ \log P(X | w) \big] - \mathbb{E} \Bigg[ \log \frac{q(w| \theta)}{P(w)} \Bigg] \\ &= \int q(w | \theta) \log P(X | w) dw - KL\{ q(w| \theta) || P(w) \} \end{aligned} EBLO=E[logP(Xw)+logP(w)logq(wθ)]=E[logP(Xw)]E[logP(w)q(wθ)]=q(wθ)logP(Xw)dwKL{q(wθ)P(w)}

而对于一个深度学习问题,给定数据集D,神经网络的参数为 w w w,输出为 P ( D ∣ w ) P(D | w) P(Dw)

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值