暂存链接:
关于BN层为什么加 /gamma 和 /beta,以及BN位于激活层前还是激活层后。:
(天空之城)Feature Scaling 和 Batch Norm 笔记 https://shomy.top/2017/12/05/Feature-Scaling-Batch-Norm/
加速收敛,
因为神经网络本质上是学习数据的分布情况,而mini-batch每次都会有不同的分布,也就是说,每次训练的数据都有不同的分布,数据抖动很大,所以权重变化也会很大。而batch norm会将数据归一化,减少不同batch间数据的抖动情况,从而提高训练速度。
其他引用如下:
在dropout部分, 我们已经解释过, 之所以dropout可以抑制overfitting, 是因为在训练阶段, 我们引入了 随机性(随机cancel一些Neuron),减少网络的匹配度, 在测试阶段, 我们去除掉随机性, 并通过期望的方式marginalize随机影响。
在BatchNormalization中, 训练阶段, 我们随机选取了Batch进行Normalization, 并计算running mean等, 在测试阶段, 应用running_mean这些训练参数来进行整体Normalization, 本质上是