《Understanding Dropout》
摘要:
为了避免训练期间的特征提取器(神经元)间的“互适应”,使用Dropout(看作是随机神经元你无效化)是个新方法。作者提出通过“arbitrary probability values”(引入随机的values),对于深度学习网络,好处可以看作是三个递归方程,包括对归一化加权几何平均的近似。
introduction
简单概述了Hinton提出的dropout的优点:
1,免训练期间的特征提取器(神经元)间的“互适应”,从而防止过拟合。
2,一些情况下dropout比一些ensemble要好,推测在集成网络上适用性很强
然而还有很多关于dropout是不知道的,比如平均化,规则化,收敛的特性。
归纳:
我们可以预期三个学习阶段:(1)在学习的开始,当权重通常是小的和随机的,每个单元的总输入是接近0的,一致性高。
(2)随着学习的进行,活动趋向于0-1之间,一致性降低,即对于给定的输入,各单元在子网络间的方差增大。(3)当随机梯度学习过程收敛时,一致性趋于稳定的value。