Implicit Regularization of Dropout
题目:Dropout的隐式正则化
作者:Zhongwang Zhang and Zhi-Qin John Xu
源码:https://github.com/sjtuzzw/torch_code_frame
摘要
在神经网络训练过程中,了解如何通过使用流行的正则化方法——dropout,来实现良好的泛化解决方案是非常重要的。在这项工作中,我们提出了dropout的隐式正则化的理论推导,并通过一系列实验进行了验证。此外,我们从数值上研究了隐式正则化的两个含义,这些直观地解释了为什么dropout有助于泛化。首先,我们发现使用dropout训练的隐藏神经元的输入权重倾向于凝聚在孤立的方向上。凝聚是非线性学习过程中的一个特征,它使网络复杂度降低。其次,我们发现使用dropout进行训练会导致神经网络达到比标准梯度下降训练更平坦的最小值,而隐式正则化是找到平坦解的关键。尽管我们的理论主要关注在最后隐藏层中使用的dropout,但我们的实验适用于训练神经网络中的一般dropout。这项工作指出了dropout与随机梯度下降相比的一个独特特征,并为全面理解dropout提供了重要的基础。
关键词
- 神经网络
- dropout
- 凝聚
- 平坦性
- 隐式正则化
I. 引言
Dropout 是一种用于基于梯度下降的算法训练神经网络(NNs&#