BN操作:
(1)获得了一个mini-batch的输入в = {x1,…, xm},m是batch size。
(2)求这个batch的均值μ和方差σ。
(3)对所有xi ∈в,进行一个标准化,得到xi’。
(4)对xi’做一个线性变换,得到输出yi。
通过最后学习线性变化的参数,BN会在训练过程中,调节数据分布,使数据“更合理”地进入激活函数,达到数据不会被激活函数“修剪”地过多或者过少的目的,提高了准确率。另外BN加速了网络收敛,因为不必训练神经网络去适应数据的分布。
为什么要进行BN
最新推荐文章于 2024-07-20 17:59:19 发布