批量标准化（批量归一化）（BatchNormalization）

最新推荐文章于 2024-05-28 20:51:39 发布

大墅哥哥

最新推荐文章于 2024-05-28 20:51:39 发布

阅读量4.4k

点赞数 3

文章标签：神经网络深度学习机器学习人工智能

本文链接：https://blog.csdn.net/weixin_43532000/article/details/104500053

版权

批量标准化（批量归一化）（BatchNormalization）

由于翻译的缘故，归一化和标准化其实有别，个人认为应该叫成批量标准化，为防止歧义的原因,以下我将用BatchNormalization,而不用中文

背景

尽管使用He初始化和ELU（或任何 ReLU变体）可以显著减少训练开始阶段的梯度消失/爆炸问题，但不保证在训练期间问题不会回来。
在2015年的一篇论文中，SergeyIoffe 和ChristianSzegedy提出了一种称为Batch Normalization(BN)的技术来解决梯度消失/爆炸问题、每层输入的分布在训练期间改变的问题，更普遍的问题是当前一层的参数改变，每层输入的分布会在训练过程中发生变化（他们称之为内部协变量偏移问题），总而言之，即是训练神经网络的一个技巧方法，能够解决训练过程中一些问题，让数据的分布能够一致，使得模型在训练时容易和稳定。

BN层的应用

通常来说，数据标准化预处理对于浅层模型就足够有效了。随着模型训练的进行，当每层中参数更新时，靠近输出层的输出较难出现剧烈变化。但对深层神经网络来说，即使输入数据已做标准化，训练中模型参数的更新依然很容易造成靠近输出层输出的剧烈变化。这种计算数值的不稳定性通常令我们难以训练出有效的深度模型。

BN的提出正是为了应对深度模型训练的挑战。在模型训练时，BatchNormalization利用小批量上的均值和标准差，**不断调整神经网络中间输出，**从而使整个神经网络在各层的中间输出的数值更稳定。

BN层也是像全连接层，卷积层，池化层这些网络层一样，同样属于网络中的一层。

对全连接层做批量归一化

通常，我们将批量归一化层置于全连接层中的仿射变换和激活函数之间。
设全连接层的输入为u，权重参数和偏差参数分别为 $W$ 和 $b$ ，激活函数为 $ϕ$ 。设BatchNormalization的运算符为BN。那么，使用BatchNormalization的全连接层的输出为

$ϕ (B N (x))$
其中批量归一化输入 $x$ 由仿射变换
$x = W u + b$
虑一个由m个样本组成的小批量，仿射变换的输出为一个新的小批量 $B$ ={ $x ^{(1)} ,…,x ^{(m)}$ }。
它们正是BN层的输入。对于小批量 $B$ 中任意样本 $x ^(i) ∈R ^d,1≤i≤m，$
BN层的输出同样是 $d$ 维向量
$y ^(i) =BN(x ^{(i)} ),$
对小批量 $B$ 求均值和方差：
$μ _B ← 1/m ∑ _{i=1} ^m x (i)$
$σ B ^2 ← 1/m ∑ _{i=1} ^m (x ^{(i)} −μ _B ) ^2 ,$
其中的平方计算是按元素求平方。接下来，使用按元素开方和按元素除法对 $x ^{(i)}$ 标准化：
$\hat{\boldsymbol{x}}^{(i)} \leftarrow \frac{\boldsymbol{x}^{(i)} - \boldsymbol{\mu}_\mathcal{B}}{\sqrt{\boldsymbol{\sigma}_\mathcal{B}^2 + \epsilon}},$
这⾥ϵ > 0是个很小的常数，保证分母大于0

${\boldsymbol{y}}^{(i)} \leftarrow \boldsymbol{\gamma} \odot \hat{\boldsymbol{x}}^{(i)} + \boldsymbol{\beta}.$

引入可学习参数：拉伸参数γ和偏移参数β。若 $\boldsymbol{\gamma} = \sqrt{\boldsymbol{\sigma}_\mathcal{B}^2 + \epsilon}$ 和 $\boldsymbol{\beta} = \boldsymbol{\mu}_\mathcal{B}$ ，批量归一化无效。

对卷积层做BatchNormalization

位置：卷积计算之后、应⽤激活函数之前。
如果卷积计算输出多个通道，我们需要对这些通道的输出分别做批量归一化，且每个通道都拥有独立的拉伸和偏移参数。
计算：对单通道， $b a t c h s i z e = m,$ 卷积计算输出 $= p x q$
对该通道中 $m \times p \times q$ 个元素同时做批量归一化,使用相同的均值和方差。

预测时的BatchNormalization

训练：以batch为单位,对每个batch计算均值和方差。
预测：用移动平均估算整个训练数据集的样本均值和方差。

Pytorch 的BN实现

Pytorch中nn模块定义的BatchNorm1d和BatchNorm2d类使用起来更加简单，二者分别用于全连接层和卷积层，都需要指定输入的num_features参数值。下面我们用PyTorch实现使用BatchNormalization的LeNet

其中BatchNorm2d的参数是通道数

net = nn.Sequential(
            nn.Conv2d(1, 6, 5), # in_channels, out_channels, kernel_size
            nn.BatchNorm2d(6),
            nn.Sigmoid(),
            nn.MaxPool2d(2, 2), # kernel_size, stride
            nn.Conv2d(6, 16, 5),
            nn.BatchNorm2d(16),
            nn.Sigmoid(),
            nn.MaxPool2d(2, 2),
            d2l.FlattenLayer(),
            nn.Linear(16*4*4, 120),
            nn.BatchNorm1d(120),
            nn.Sigmoid(),
            nn.Linear(120, 84),
            nn.BatchNorm1d(84),
            nn.Sigmoid(),
            nn.Linear(84, 10)
        )

大墅哥哥

关注

3
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
批量标准化（批量归一化）（BatchNormalization）

批量标准化（批量归一化）（BatchNormalization）由于翻译的缘故，归一化和标准化其实有别，个人认为应该叫成批量标准化，为防止歧义的原因,以下我将用BatchNormalization,而不用中文背景尽管使用He初始化和ELU（或任何 ReLU变体）可以显著减少训练开始阶段的梯度消失/爆炸问题，但不保证在训练期间问题不会回来。在2015年的一篇论文中，SergeyIoffe 和...
复制链接

扫一扫