![8a21bb477d66db8f059884573aabad38.png](https://i-blog.csdnimg.cn/blog_migrate/5d5eb1e60ada7c11a4d4cb9c20b1567b.jpeg)
贝叶斯神经网络,简单来说可以理解为通过为神经网络的权重引入不确定性进行正则化(regularization),也相当于集成(ensemble)某权重分布上的无穷多组神经网络进行预测。
本文主要基于 Charles et al. 2015[1]。
FBI WARNING:本文讨论的是 贝叶斯神经网络,而非 贝叶斯网络。 FBI WARNING:鉴于近期知乎上一些睿智发言,本文将所有术语翻译成了中文,请谨慎食用。
题图来源
0. 神经网络的概率模型
众所周知,一个神经网络模型可以视为一个条件分布模型
其中
MLE 中不对
代入高斯分布可以推出 L2 正则化(倾向于取小值),代入拉普拉斯分布(Laplace)可以推出 L1 正则化(倾向于取 0 使权重稀疏)。
1. 贝叶斯起来了!
贝叶斯估计(bayesian estimation)同样引入先验假设&