Dropout
dropout可以被认为是继承大量深层神经网络的使用bagging方法。bagging需要训练多个模型,如果每个模型都是很大的神经网络的话是不切实际的。dropout的目标是在指数级数量的神经网络上近似bagging过程。
bagging和dropout的差异
训练不太一样,bagging的训练,所有的模型都是独立的;在dropout中所有模型共享参数,每个模型继承大神经网络参数的不同子集(共享参数也使得每个子模型都有很好的参数设定)。其他两者之间没有太多区别,训练中遇到的训练集也都是有放回采样的原始训练集的一个子集。
dropout的特性
1. 关于推断,权重比例推断比蒙特卡洛近似推断效果更好。dropout的计算开销比其他正则化方法更小。
2. dropout不限制适用的模型和训练过程。
3. 只有少量样本时dropout不会有效,,它是为了减少模型的容量。
4. 对于线性回归来说,dropout等同于每个特征都有L2的权重衰减,其他模型不等同。
dropout的解释
1.通过随机行为训练网络并平均多个随机决定进行预测,实现了一种参数共享的bagging。
2.dropout共享隐藏单元,要求每个隐藏单元必须表现良好。
3.dropout强大的大部分原因是来自施加到隐藏单元的掩码噪声,且噪声是乘性的(更加具有鲁棒性)。