Bayesian Deep Learning 学习笔记

最新推荐文章于 2022-03-09 15:46:26 发布

joshuasea

最新推荐文章于 2022-03-09 15:46:26 发布

阅读量2.2k

点赞数 1

分类专栏：机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013841458/article/details/82526706

版权

机器学习同时被 2 个专栏收录

36 篇文章 2 订阅

订阅专栏

26 篇文章 0 订阅

订阅专栏

为什么要学习贝叶斯深度学习？

它是一个模型构建和理解泛化的强大框架
不确定性表示（对决策至关重要）
更好的点估计
从概率论的角度来看，神经网络不那么神秘。

缺点

可以在计算上难以处理（但不一定是）
可能涉及很多运动部件（但不必）。

我们如何构建学习和概括的模型？

概率方法
我们可以在模型中明确说明噪音。

对于i.i.d，通常需要ε（x）= N（0;σ2）。加性高斯噪声，在这种情况下

最大化数据p（y | x，w，σ2）相对于σ2，w的可能性。

对于高斯噪声模型，此方法将使用与使用平方损失误差函数相同的预测：

概率方法有助于我们在确定性方法中解释误差测量，并让我们了解噪声水平σ2。
这两种方法都容易过度拟合灵活的f（x，w）：训练数据的误差很小，测试集上的误差很大。

Regularization

使用惩罚对数似然（或误差函数），例如

但是，我们应该如何定义和惩罚复杂性？
我可以使用交叉验证设置λ。
与使用高斯先验p（w）最大化后验log p（w | y，X）= log p（y | w，X）+ p（w）相同。但这不是贝叶斯！

Predictive Distribution

将w的每个设置视为不同的模型。方程（9）是贝叶斯模型平均值，是由其后验概率加权的无限多个模型的平均值。
没有过度拟合，自动校准的复杂性。
方程（9）不是对许多可能性p（y | X，w，σ2）和先验p（w）进行分析。
（但最近的进展，例如SG-HMC，使得这些计算在深度学习中更容易处理）。
通常对函数的诱导分布比对参数w更感兴趣。在p（w）上很难对先验者有直觉。

Example: Bent Coin示例：弯曲硬币

假设我们以落地尾部的概率λ翻转弯曲的硬币。

1. What is the likelihood of a set of data D = {x1,x2,,,, xn}

2.λ的最大似然解是什么？

3.假设我们在前两次翻转中观察到2个尾巴。
使用最大似然值，下一次翻转的概率是多少？

得到m尾的可能性是

如果我们选择先验的，那么后验将具有与先前相同的函数形式。

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。