神经网络训练细节系列笔记:
这一篇介绍很NB的BN(Batch Normalization):
Batch Normalization是由Loffe和Szegedy在2015年提出的概念,主旨是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布。Batch Normalization概念的提出来源于深度神经网络随着网络深度加深,训练起来越困难,收敛越来越慢。从而引入了“Internal Covariate Shift”问题。
“Internal Covariate Shift”问题是指:在训练过程中,因为各层参数老在变,所以每个隐层都会面临covariate shift的问题,也就是在训练过程中,隐层的输入分布老是变来变去,这就是所谓的“Internal Covariate Shift”,Internal指的是深层网络的隐层,是发生在网络内部的事情,而不是covariate shift问题只发生在输入层。
因此,就有了Batch Normalization的基本思想:能不能让每个隐层节点的激活输入分布固定下来呢?这样就避免了“Internal Co