（九）批量归一化

最新推荐文章于 2024-07-22 17:57:26 发布

HawardScut

最新推荐文章于 2024-07-22 17:57:26 发布

阅读量4.6k

点赞数 3

分类专栏：深度学习

本文链接：https://blog.csdn.net/hao5335156/article/details/80565985

版权

深度学习专栏收录该内容

18 篇文章 3 订阅

订阅专栏

1、引入

对输入数据做了归一化处理，就是将每个特征在所有样本上的值转归一化成均值0方差1。这样我们保证训练数据里数值都同样量级上，从而使得训练的时候数值更加稳定。对于浅层模型来说，通常数据归一化预处理足够有效。输出数值在只经过几个神经层后通常不会出现剧烈变化。但对于深层神经网络来说，情况一般比较复杂。因为每一层里都对输入乘以权重后得到输出。当很多层这样的相乘累计在一起时，一个输出数据较大的改变都可以导致输出产生巨大变化，从而带来不稳定性。

批量归一化层的提出是针对这个情况。它将一个批量里的输入数据进行归一化然后输出。如果我们将批量归一化层放置在网络的各个层之间，那么就可以不断的对中间输出进行调整，从而保证整个网络的中间输出的数值稳定性。

2、批量归一化层

均值和方差

μ \leftarrow 1 n \sum i = 1 n x i,

$\mu \leftarrow \frac{1}{n}\sum_{i = 1}^{n}x_i,$

σ 2 \leftarrow 1 n \sum i = 1 n (x i - μ) 2 .

$\sigma^2 \leftarrow \frac{1}{n} \sum_{i=1}^{n}(x_i - \mu)^2.$

对于数据点 $x_i$ ，对它的每一个特征维进行归一化：

x i^\leftarrow x i - μ σ 2 + ϵ - - - - - \sqrt,

$\hat{x_i} \leftarrow \frac{x_i - \mu}{\sqrt{\sigma^2 + \epsilon}},$
这里ϵ是一个很小的常数保证不除以0。在上面归一化的基础上，批量归一化层引入了两个可以学习的模型参数，拉升参数 γ 和偏移参数 β（通道数是6时候，他们是大小为6的向量）。它们是长为p(这里p是指特征的数目，在图中即使通道数6)的向量，作用在