（四）卷积神经网络 -- 10 批量归一化

最新推荐文章于 2024-10-07 11:27:35 发布

Fiona-Dong

最新推荐文章于 2024-10-07 11:27:35 发布

阅读量2.3k

点赞数

分类专栏：动手学深度学习-TF2.0（读书笔记）

原文链接：https://trickygo.github.io/Dive-into-DL-TensorFlow2.0/#/chapter05_CNN/5.10_batch-norm

版权

动手学深度学习-TF2.0（读书笔记）专栏收录该内容

45 篇文章 13 订阅

订阅专栏

10. 批量归一化

对于 “Kaggle比赛：预测房价” 的场景，可以对输入数据做标准化处理，使得：
处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。

标准化处理输入数据使各个特征的分布相近：这往往更容易训练出有效的模型。

通常来说，数据标准化预处理对于浅层模型就足够有效了。
随着模型训练的进行，当每层中参数更新时，靠近输出层的输出较难出现剧烈变化。

但对深层神经网络来说，即使输入数据已做标准化，训练中模型参数的更新依然很容易造成靠近输出层输出的剧烈变化。
这种计算数值的不稳定性通常导致难以训练出有效的深度模型。

批量归一化的提出正是为了应对深度模型训练的挑战。
在模型训练时，批量归一化利用小批量上的均值和标准差，不断调整神经网络中间输出，从而使整个神经网络在各层的中间输出的数值更稳定。

批量归一化和下一节将要介绍的残差网络为训练和设计深度模型提供了两类重要思路。

10.1 批量归一化层

10.1.1 对全连接层

对全连接层做批量归一化，通常，是将批量归一化层置于全连接层中的仿射变换和激活函数之间。

设全连接层的输入为 $\boldsymbol{u}$ ，权重参数和偏差参数分别为 $\boldsymbol{W}$ 和 $\boldsymbol{b}$ ，激活函数为 $\phi$ ，批量归一化的运算符为 $\boldsymbol{BN}$ 。那么，使用批量归一化的全连接层的输出为：

$\phi(\text{BN}(\boldsymbol{x}))$

其中，批量归一化输入由 $\boldsymbol{x}$ 仿射变换得到：
$\boldsymbol{x} = \boldsymbol{W\boldsymbol{u} + \boldsymbol{b}}$

考虑一个由m个样本组成的小批量。

仿射变换的输出为一个新的小批量 $\mathcal{B} = \{\boldsymbol{x}^{(1)}, \ldots, \boldsymbol{x}^{(m)} \}$ ，它们正是批量归一化层的输入。

对于小批量 $\mathcal{B}$ 中任意样本 $\boldsymbol{x}^{(i)} \in \mathbb{R}^d, 1 \leq i \leq m$ ，批量归一化层的输出同样是 $\boldsymbol{d}$ 维向量：

$\boldsymbol{y}^{(i)} = \text{BN}(\boldsymbol{x}^{(i)})$

并由以下几步求得：

(1) 对小批量 $\mathcal{B}$ 求均值及方差：

$\boldsymbol{\mu}_\mathcal{B} \leftarrow \frac{1}{m}\sum_{i = 1}^{m} \boldsymbol{x}^{(i)}$

$\boldsymbol{\sigma}_\mathcal{B}^2 \leftarrow \frac{1}{m} \sum_{i=1}^{m}(\boldsymbol{x}^{(i)} - \boldsymbol{\mu}_\mathcal{B})^2$

其中，平方计算是按元素求平方。

(2) 使用按元素开方和按元素除法对 $\boldsymbol{x}^{(i)}$ 标准化： $\hat{\boldsymbol{x}}^{(i)} \leftarrow \frac{\boldsymbol{x}^{(i)} - \boldsymbol{\mu}_\mathcal{B}}{\sqrt{\boldsymbol{\sigma}_\mathcal{B}^2 + \epsilon}}$

这里 $\epsilon > 0$ 是一个很小的常数，保证分母大于0。

(3) 在上面标准化的基础上，批量归一化层引入了两个可以学习的模型参数：
拉伸（scale）参数 $\boldsymbol{\gamma}$ 和偏移（shift）参数 $\boldsymbol{\beta}$ 。

这两个参数和 $\boldsymbol{x}^{(i)}$ 形状相同，皆为d维向量。它们与 $\hat{\boldsymbol{x}}^{(i)}$ 分别做按元素乘法（符号 $\odot$ ）和加法计算： ${\boldsymbol{y}}^{(i)} \leftarrow \boldsymbol{\gamma} \odot \hat{\boldsymbol{x}}^{(i)} + \boldsymbol{\beta}.$

至此，得到了 $\boldsymbol{x}^{(i)}$ 的批量归一化的输出 $\boldsymbol{y}^{(i)}$ 。

值得注意的是，可学习的拉伸和偏移参数保留了不对 $\boldsymbol{x}^{(i)}$ 做批量归一化的可能：此时只需学出 $\boldsymbol{\gamma} = \sqrt{\boldsymbol{\sigma}_\mathcal{B}^2 + \epsilon}$ 和 $\boldsymbol{\beta} = \boldsymbol{\mu}_\mathcal{B}$ 。