批量规范化（Batch Normalization，BN）

最新推荐文章于 2024-04-21 21:27:53 发布

进击的路飞桑

最新推荐文章于 2024-04-21 21:27:53 发布

阅读量5.9k

点赞数 18

分类专栏： # 深度学习基础

本文链接：https://blog.csdn.net/jgj123321/article/details/105291672

版权

深度学习基础专栏收录该内容

8 篇文章 0 订阅

订阅专栏

数据标准化

由于神经网络的表达能力大多来自激活函数的非线性，所以让输入数据“适应于”激活函数是很重要的，具体而言：

对于sigmoid系列的激活函数而言，由于函数两端过于平坦，所以为了不陷入梯度消失的窘境，我们希望神经元的输入集中在函数中央，而不希望神经元的输入（绝对值）过大。
对于Relu激活函数而言，由于函数在输入小于0的区域恒等于0，那么从直观上来说，如果一个很大的梯度把某个神经元的输入拉到了小于0很多的区域，该神经元从此以后的输出将永远是0了，因为他基本不可能回到大于0的区域。这就是著名的“Dying Relu问题”，这通常会导致最后很多神经元处于“死亡”状态。

总结一下，可以把激活函数对输入数据的要求归结为如下两点：

输入数据不要过大
输入数据带来的梯度不要太大

一个合理且行之有效的做法就是（即：数据标准化）：

将输入数据的均值控制在0，从而意味着数据的“中心”是0
将输入数据的方差控制在1，从而意味着数据的“波动”不会太大

批量规范化（Batch Normalization，BN）

仅仅对原始输入数据进行标准化是不充分的，因为虽然这种做法可以保证原始输入数据的质量，但它却无法保证隐藏层输入数据的质量。浅层参数的微弱变化经过多层线性变换与激活函数后被放大，改变了每一层的输入分布，造成深层的网络需要不断调整以适应这些分布变化，最终导致模型难以训练收敛。

由于网络中参数变化导致的内部节点数据分布发生变化的现象被称做ICS（Internal Covariate Shift，内部协变量转移）。ICS现象容易使训练过程陷入饱和区，减慢网络的收敛。Relu从激活函数的角度出发，在一定程度上解决了梯度饱和的现象。而2015年提出的BN层，则从改变数据分布的角度避免了参数陷入饱和区。由于BN层优越的性能，其已经是当前卷积网络中的标配。

简单的将每层得到的数据进行直接的标准化操作显然是不可行的，因为这样会破坏每层自身学到的数据特征。为了使“规范化”之后不破坏层结构本身学到的特征，BN引入了两个可以学习的“重构参数”以期望能够从规范化的数据中重构出层本身学到的特征。算法步骤如下：其中批处理输入： $x:B =\left \{ x_{1 ,...,m}\right \}$ ，输出：规范化后的网络响应 $\left \{ y_{i}=BN_{\gamma ,\beta } \left ( x_{i} \right )\right \}$ 。