概率神经网络_PR Ⅳ: 贝叶斯神经网络 Bayesian Neural Network

7bb3d9e82a002f06dcf310650832cdbd.png

Probabilistic in Robotics Ⅳ: Bayesian Neural Network

贝叶斯方法后来也搭上了Deep learning的顺风车,摇身一变成了Bayesian Neural Network(BNN)。

注意:这叫做贝叶斯神经网络,不是贝叶斯图网络

之前一直在介绍贝叶斯方法的思想,但是没有介绍怎么求解。在第二章Bayesian Inference已经写过主要的求解方式有两种:

  • 基于采样马尔可夫链蒙特卡罗(Markov Chain Monte Carlo,简称MCMC)方法
  • 基于近似变分推断(Variational Inference,简称VI)方法

这两个还是放在后面,链接之后会放出。先介绍变分推断的特例,贝叶斯神经网络。

结构

左图是普通的全连接(deterministic)神经网络,右图是贝叶斯(probabilistic)神经网络。

4261a07e1e5bf47500ce9d5367434469.png

普通的全连接神经网络有什么缺点?

NN倾向于过度拟合它所看到的数据,但在训练集范围外的部分,就无能为力了。这个时候如果能对NN的预测有一个置信度的评价会很有帮助。

268cc8f3fde76608811c509cae755742.png

BNN怎么做?

贝叶斯推断和MAP的不同在于,贝叶斯推断求出参数

的分布,而MAP是求argmax。

所以,直接把NN的网络权重改成分布

由于我们求得的是分布,基于

由输入
预测
的概率模型就变成了:

本来后验分布

就很难解(intractable)了,再加上还要对每一个预测值求期望,所以不如使用神经网络来近似。定义一个概率分布
由此转化为优化问题:

这里使用信息论中的KL散度来度量目标分布和预测分布之间的差异。

将式中的真实后验概率根据贝叶斯公式展开:

得到两个结论:

  • 由于
    ,因此
    。前面是数据的似然,被称为Evidence. 因此后面的项被称为 Evidence lower bound (ELBO)。
  • 设 Evidence 不变,最小化KL等价于最大化 ELBO

    其中:

最终式子可解释为:最大化 ELBO = 最大化数据的极大似然 + 最小化 q 和先验 p 的距离。

上述式子需要通过采样MC来估计,损失函数写作:

未完待续。。。

Reference

  1. A Short Introduction to Bayesian Neural Networks
  2. The very Basics of Bayesian Neural Networks
  3. Bayesian neural network introduction
  4. Bayesian Neural Networks(贝叶斯神经网络)
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值