Batch Normalization导读
author: 张俊林
https://blog.csdn.net/malefactor/article/details/51476961
本质:对于每个隐层神经元,把逐渐向非线性函数映射后向取值区间极限饱和区靠拢的输入分布强制拉回到均值为0方差为1的比较标准的正态分布,使得非线性变换函数的输入值落入对输入比较敏感的区域,以此避免梯度消失问题。因为梯度一直都能保持比较大的状态,所以很明显对神经网络的参数调整效率比较高,就是变动大,就是说向损失函数最优值迈动的步子大,也就是说收敛地快。
Batch Normalization论文翻译——中英文对照
https://blog.csdn.net/Quincuntial/article/details/78124582
为什么要归一化以及归一化的方法
https://blog.csdn.net/program_developer/article/details/78637711
CNN和RNN中如何引入BatchNorm