批量标准化(批量归一化)(BatchNormalization)

批量标准化(批量归一化)(BatchNormalization)

由于翻译的缘故,归一化和标准化其实有别,个人认为应该叫成批量标准化,为防止歧义的原因,以下我将用BatchNormalization,而不用中文

背景

尽管使用He初始化和ELU(或任何 ReLU变体)可以显著减少训练开始阶段的梯度消失/爆炸问题,但不保证在训练期间问题不会回来。
在2015年的一篇论文中,SergeyIoffe 和ChristianSzegedy提出了一种称为Batch Normalization(BN)的技术来解决梯度消失/爆炸问题、每层输入的分布在训练期间改变的问题,更普遍的问题是当前一层的参数改变,每层输入的分布会在训练过程中发生变化(他们称之为内部协变量偏移问题),总而言之,即是训练神经网络的一个技巧方法,能够解决训练过程中一些问题,让数据的分布能够一致,使得模型在训练时容易和稳定。

BN层的应用

通常来说,数据标准化预处理对于浅层模型就足够有效了。随着模型训练的进行,当每层中参数更新时,靠近输出层的输出较难出现剧烈变化。但对深层神经网络来说,即使输入数据已做标准化,训练中模型参数的更新依然很容易造成靠近输出层输出的剧烈变化。这种计算数值的不稳定性通常令我们难以训练出有效的深度模型。

BN的提出正是为了应对深度模型训练的挑战。在模型训练时,BatchNormalization利用小批量上的均值和标准差,**不断调整神经网络中间输出,**从而使整个神经网络在各层的中间输出的数值更稳定。

BN层也是像全连接层,卷积层,池化层这些网络层一样,同样属于网络中的一层。

对全连接层做批量归一化

通常,我们将批量归一化层置于全连接层中的仿射变换和激活函数之间。
设全连接层的输入为u,权重参数和偏差参数分别为 W W W b b b,激活函数为 ϕ ϕ ϕ。设BatchNormalization的运算符为BN。那么,使用BatchNormalization的全连接层的输出为

ϕ ( B N ( x ) ) ϕ(BN(x)) ϕ(BN(x))
其中批量归一化输入 x x x由仿射变换
x = W u + b x=Wu+b x=Wu+b
虑一个由m个样本组成的小批量,仿射变换的输出为一个新的小批量 B B B={ x ( 1 ) , … , x ( m ) x ^{(1)} ,…,x ^{(m)} x(1),,x(m) }。
它们正是BN层的输入。对于小批量 B B B中任意样本 x ( i ) ∈ R d , 1 ≤ i ≤ m , x ^(i) ∈R ^d,1≤i≤m, x(i)Rd,1im
BN层的输出同样是 d d d维向量
y ( i ) = B N ( x ( i ) ) , y ^(i) =BN(x ^{(i)} ), y(i)=BN(x(i)),
对小批量 B B B求均值和方差:
μ B ​ ← 1 / m ​ ∑ i = 1 m ​ x ( i ) μ _B ​ ← 1/m ​ ∑ _{i=1} ^m ​ x (i) μB1/mi=1mx(i)
σ B 2 ​ ← 1 / m ​ ∑ i = 1 m ​ ( x ( i ) − μ B ​ ) 2 , σ B ^2 ​ ← 1/m ​ ∑ _{i=1} ^m ​ (x ^{(i)} −μ _B ​ ) ^2 , σB21/mi=1m(x(i)μB)2,
其中的平方计算是按元素求平方。接下来,使用按元素开方和按元素除法对 x ( i ) x ^{(i)} x(i) 标准化:
x ^ ( i ) ← x ( i ) − μ B σ B 2 + ϵ , \hat{\boldsymbol{x}}^{(i)} \leftarrow \frac{\boldsymbol{x}^{(i)} - \boldsymbol{\mu}_\mathcal{B}}{\sqrt{\boldsymbol{\sigma}_\mathcal{B}^2 + \epsilon}}, x^(i)σB2+ϵ x(i)μB,
这⾥ϵ > 0是个很小的常数,保证分母大于0

y ( i ) ← γ ⊙ x ^ ( i ) + β . {\boldsymbol{y}}^{(i)} \leftarrow \boldsymbol{\gamma} \odot \hat{\boldsymbol{x}}^{(i)} + \boldsymbol{\beta}. y(i)γx^(i)+β.

引入可学习参数:拉伸参数γ和偏移参数β。若 γ = σ B 2 + ϵ \boldsymbol{\gamma} = \sqrt{\boldsymbol{\sigma}_\mathcal{B}^2 + \epsilon} γ=σB2+ϵ β = μ B \boldsymbol{\beta} = \boldsymbol{\mu}_\mathcal{B} β=μB,批量归一化无效。

对卷积层做BatchNormalization

位置:卷积计算之后、应⽤激活函数之前。
如果卷积计算输出多个通道,我们需要对这些通道的输出分别做批量归一化,且每个通道都拥有独立的拉伸和偏移参数。
计算:对单通道, b a t c h s i z e = m , batchsize=m, batchsize=m,卷积计算输出 = p x q =pxq =pxq
对该通道中 m × p × q m×p×q m×p×q个元素同时做批量归一化,使用相同的均值和方差。

预测时的BatchNormalization

训练:以batch为单位,对每个batch计算均值和方差。
预测:用移动平均估算整个训练数据集的样本均值和方差。

Pytorch 的BN实现

Pytorch中nn模块定义的BatchNorm1dBatchNorm2d类使用起来更加简单,二者分别用于全连接层和卷积层,都需要指定输入的num_features参数值。下面我们用PyTorch实现使用BatchNormalization的LeNet

其中BatchNorm2d的参数是通道数

net = nn.Sequential(
            nn.Conv2d(1, 6, 5), # in_channels, out_channels, kernel_size
            nn.BatchNorm2d(6),
            nn.Sigmoid(),
            nn.MaxPool2d(2, 2), # kernel_size, stride
            nn.Conv2d(6, 16, 5),
            nn.BatchNorm2d(16),
            nn.Sigmoid(),
            nn.MaxPool2d(2, 2),
            d2l.FlattenLayer(),
            nn.Linear(16*4*4, 120),
            nn.BatchNorm1d(120),
            nn.Sigmoid(),
            nn.Linear(120, 84),
            nn.BatchNorm1d(84),
            nn.Sigmoid(),
            nn.Linear(84, 10)
        )

  • 3
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值