剑桥大学Ghahramani发表在ICML16.
【abstract】用于回归和分类的DL工具没有表示模型不确定性。bayesian模型有数学上完备的框架推导模型不确定性,但常有过高的计算代价。
文章将深度神经网络中的dropout训练理解为 深度高斯过程 中的近似贝叶斯推理,通过dropout NN建模不确定性,不影响计算复杂度和模型准确性。仔细研究了dropout表示不确定性的属性。MNIST数据上的实验,各种网络结构,非线性函数模型,能在预测似然和RMSE上达到最新水平。考虑了深度强化学习中使用dropout不确定性。
【keypoint】NN的bayesian VB,把dropout解释为后验分布为mixture of norm, scale=0带来的参数的稀疏性/特征的选择。
背景: DL 不确定性。
离训练数据很远的点的分类,应该有一些不确定性?
实践中关键系统,需要知道模型不确定性,进而将不确定的结果交给人来处理。
强化学习中知道不确定性,可以在开发和探索环境中做选择。
bayesian 全连接NN
神经网络
训练数据 N 个,输入(特征)X,输出(标签)Y。
NN模型,
第 i 层的权重参数
第 i 层的bias向量
模型最终输出 y^ 。
损失函数 E (比如softmax loss, square loss),
目标函数 L=1N∑iE(yi,yi^)+λ∑Lj=1(||Wj||2+||bj||2)
概率表示
共L层 的参数 W={
Wi}
L层网络最终输出
y^(x,W)=1KL−−−√WLσ(…1K1−−−√W2σ(W1x+b1)…)
预测概率
p(y|x,W)=N(y;y^(x,W),1τID)
p(y|x,X,Y)=∫p(y|x,W)p(W|X,Y)dW
其中后验 p(W|X,Y)
参数的先验 W