[文献阅读]dropout as a bayesian approximation: representing model uncertainty in deep learning

最新推荐文章于 2022-08-23 09:53:45 发布

pearl30

最新推荐文章于 2022-08-23 09:53:45 发布

阅读量7.6k

点赞数 7

分类专栏：深度学习 bayesian 文章标签：深度学习 bayesian

本文链接：https://blog.csdn.net/pearl30/article/details/75142827

版权

本文探讨了深度学习模型在表示不确定性方面的不足，并提出将dropout视为深度高斯过程的贝叶斯推理近似。通过dropout训练的神经网络可以建模不确定性，同时保持计算效率和准确性。实验表明，这种方法在回归和分类任务上达到了最先进的性能，尤其适用于需要模型不确定性估计的场景，如强化学习。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

剑桥大学Ghahramani发表在ICML16.

【abstract】用于回归和分类的DL工具没有表示模型不确定性。bayesian模型有数学上完备的框架推导模型不确定性，但常有过高的计算代价。
文章将深度神经网络中的dropout训练理解为深度高斯过程中的近似贝叶斯推理，通过dropout NN建模不确定性，不影响计算复杂度和模型准确性。仔细研究了dropout表示不确定性的属性。MNIST数据上的实验，各种网络结构，非线性函数模型，能在预测似然和RMSE上达到最新水平。考虑了深度强化学习中使用dropout不确定性。

【keypoint】NN的bayesian VB，把dropout解释为后验分布为mixture of norm, scale=0带来的参数的稀疏性/特征的选择。

背景： DL 不确定性。

离训练数据很远的点的分类，应该有一些不确定性？
实践中关键系统，需要知道模型不确定性，进而将不确定的结果交给人来处理。
强化学习中知道不确定性，可以在开发和探索环境中做选择。

bayesian 全连接NN

神经网络

训练数据 $N$ 个，输入（特征）X，输出（标签）Y。
NN模型， $L$ 层，
第 $i$ 层的权重参数 $W_i$ ，维度 $K_i \times K_{i-1}$ ；
第 $i$ 层的bias向量 $b_i$ ,维度 $K_i$ 。
模型最终输出 $\hat{y}$ 。
损失函数 $E$ （比如softmax loss, square loss）， $L_2$ 正则项。
目标函数 $L=\frac{1}{N}\sum_i E(y_i, \hat{y_i})+\lambda\sum_{j=1}^L (||W_j||^2+||b_j||^2)$

概率表示

共L层的参数 $\mathcal{W}=\{W_i\}$
L层网络最终输出
$\hat{y}(x,\mathcal{W})= \sqrt{\frac{1}{K_L}}W_L \sigma\left( … \sqrt{\frac{1}{K1}}W_2 \sigma\left( W_1 x+b_1\right) … \right)$
预测概率
$p(y|x,\mathcal{W})=N\left(y; \hat{y}(x,\mathcal{W}), \frac{1}{\tau}I_D\right)$
$p(y|x,X,Y)=\int p(y|x,\mathcal{W}) p(\mathcal{W}|X,Y) d \mathcal{W}$
其中后验 $p(\mathcal{W}|X,Y)$
参数的先验 W

最低0.47元/天解锁文章