用一句话来说清楚:对数据进行缩放,并且分布在激活函数最佳分类区间内。
作用:类似于机器学习中的特征缩放,将分散的数据集中起来。
用法:通常放在全连接、卷积层之后,relu层之前。
原理:图像数据经过卷积层后,相当于进行了一次线性变换。此时数据的离散程度比较高,分布范
围如下图所示,大概在[-4,4]的区间内。
我们sigmid函数分辨率最好的区域是[-2,2],其中导数值[0.1,0.25]区间。其余部分导数较小接近于0,分布在此的数据对对激活函数的敏感程度低,分类效果不明显。
批量归一的作用就是,将数据集中在0附近,此时分类器的导数最大,对数据敏感程度最高,能够
使更多的有效数据进入下一层。
好处:①不仅仅极大提升了训练速度,收敛过程大大加快;②还能增加分类效果,一种解释是这是类似于Dropout的一种防止过拟合的正则化表达方式,所以不用Dropout也能达到相当的效果;③另外调参过程也简单多了,对于初始化要求没那么高,而且可以使用大的学习率等