关于BN(Batch Normalization)的一些归纳和总结

最新推荐文章于 2024-08-22 20:26:16 发布

漂洋过海的油条

最新推荐文章于 2024-08-22 20:26:16 发布

阅读量5.3k

点赞数 2

本文链接：https://blog.csdn.net/weixin_40533355/article/details/88554586

版权

写这篇的目的是因为，发现自己理解的BN不是很透彻，写一篇总结总结。

一、归一化（Normalization)的概念

Normalization是一个统计学中的概念，它并不是一个完全定义好的数学操作(如加减乘除)。它通过将数据进行偏移和尺度缩放调整。在数据预处理时是非常常见的操作，在网络的中间层如今也很频繁的被使用。

比如：

线性归一化：最简单来说，归一化是指将数据约束到固定的分布范围，比如8位图像的0～255像素值，比如0～1。
零均值归一化：也是一个常见的归一化方法，被称为标准化方法，即每一变量值与其平均值之差除以该变量的标准差（正态分布变为标准正态分布的公式）。

注：这里列举两种归一化，其实还有很多种归一化方法。

综上，归一化数据的目标，是为了让数据的分布变得更加符合期望，增强数据的表达能力。

在深度学习中，因为网络的层数非常多，如果数据分布在某一层开始有明显的偏移，随着网络的加深这一问题会加剧(这在BN的文章中被称之为internal covariate shift)，进而导致模型优化的难度增加，甚至不能优化。所以，归一化就是要减缓这个问题。

（深度学习的本质就是为了学习数据分布，一旦训练数据与测试数据的分布不同，那么网络的泛化能力也大大降低；另外一方面，一旦每批训练数据的分布各不相同(batch 梯度下降)，那么网络就要在每次迭代都去学习适应不同的分布，这样将会大大降低网络的训练速度，这也正是为什么我们需要对数据都要做一个归一化预处理的原因。

对于深度网络的训练是一个复杂的过程，只要网络的前面几层发生微小的改变，那么后面几层就会被累积放大下去。一旦网络某一层的输入数据的分布发生改变，那么这一层网络就需要去适应学习这个新的数据分布，所以如果训练过程中，训练数据的分布一直在发生变化，那么将会影响网络的训练速度。）

二、BN归纳总结

（1）BN的目标：防止“梯度弥散”。

关于梯度弥散，比如： $0.9^{30}\approx 0.04$ 。在BN中，是通过将激活（activation）规范为均值和方差一致的手段使得原本会减小的激活（activation）的scale变大。可以说是一种更有效的局部响应归一化（local response normalization）方法。