[文献阅读]dropout - a simple way to prevent neural networks from overfitting

最新推荐文章于 2022-04-13 21:39:50 发布

pearl30

最新推荐文章于 2022-04-13 21:39:50 发布

阅读量1.7k

点赞数

分类专栏：深度学习文章标签： dropout dl

本文链接：https://blog.csdn.net/pearl30/article/details/76565989

版权

本文介绍了dropout技术，一种用于防止神经网络过拟合的方法，源自多伦多大学2014年的研究。在训练时，dropout以一定概率临时移除网络中的节点，模拟多个共享权重的网络进行训练。测试时，通过权重缩放后的完整网络进行预测。实验表明，dropout在多种数据集和模型上表现优于其他正则化方法，尤其是在小数据集和大型网络中，能有效降低泛化误差。此外，dropout还具有抑制特征共适应、增加激活稀疏性等优点，并且与高斯噪声相比，高斯dropout在某些情况下表现更优。

摘要由CSDN通过智能技术生成

from JMLR 2014
by多伦多大学

【main points】提出了node Bernoulli dropout，用在前馈神经网络(MLP, CNN)，限制boltzmann机模型上，在监督学习任务上测试。
训练时候对每个min batch 以一定的概率暂时的移除节点（及其输入输出连接），相当于训练 $2^n$ 个共享权重的网络。测试的时候用weight scaling后的全网络。
Gauss dropout(为权重乘以高斯噪声而非Bernoulli噪声)也有差不多更好的效果。

introduction

多个非线性隐层，可以学习输入和输出之间的复杂的关系。
但是当训练数据有限的时候，可能部分关系是从采样噪声学到的，这些关系在训练集中存在但在实际的测试数据中不存在。这就导致了过拟合。

减少过拟合的方法包括，验证集上的性能开始下降时尽快停止训练，为权重引入L1/L2正则惩罚项，soft weight sharing【？】。

如果计算量上不受限制，按照bayesian的黄金准则，regularize 一个固定规模的模型的最好的方式是，在参数的所有可能的取值上做预测，再根据每种取值的后验概率对这些预测加权取平均。

实际中希望用更少的计算量近似到达bayesian的性能。
本文提出dropout，学习指数个共享参数的模型，做预测，求几何平均。近似地有效地组合了指数多个神经网络体系结构。
dropout做法，暂时地随机地移除网络中的单元（及其输入和输出连接）。比如，每个单元都以固定的概率p（比如=0.5）保留。（但是输入单元的保留概率应该接近1）

相当于从原网络中采样一个thinned稀疏的网络。
原网络有n个单元，则有 $2^n$ 种可能（每个节点有移除/保留2种可能,各节点独立）的稀疏网络。

$2^n$ 个网络，每个网络被训练的次数都很少。
在测试的时候，直接地先对每个网络做预测再平均计算量大不可行。采用近似平均方法，将 $2^n$ 个网络组合成一个NN（所有单元都保留，但单元的输出权重都乘以该单元在训练时候的保留概率），基于这个NN做预测。