这篇文章出自《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》。
1. 研究问题
深度网络训练存在internal covariate shift 内部协变量偏移的问题,导致训练缓慢。
注:内部协变量偏移是指在神经网络训练过程中,其内部的激活层(每一层的输出,同时也是下一层的输入)的分布不断的发生变化的现象,这种现象将导致训练过程的缓慢。
2. 研究方法
提出了Batch Normalization,使用批量训练数据,对激活层进行归一化,减小激活层的协变量偏移,使得激活层的分布更加稳定,从而加快训练速度。
2.1 思想来源
该方法受到白化的启发,将白化应用于内部的激活层,减小激活层的协变量偏移。
注:白化是指将输入进行归一化,使输入服从均值为0,方差为1的的分布,这样可以使训练过程更快的收敛。
2.2 批量归一化
2.3 BN网络的训练和预测
2.4 BN卷积网络
2.5 更大的学习率
3. 实验结果
4. 结论
(1)BN可以减小内部协变量偏移,从而加快训练过程。
(2)BN允许使用更高的学习率
(3)正则化的一种策略,可以减小Dropout的使用。