Batch Normalization批量归一化

批量归一化(batch normalization)层,它能让较深的神经网络的训练变得更加容易。

深层神经网络来说,即使输入数据已做标准化,训练中模型参数的更新依然很容易造成靠近输出层输出的剧烈变化。这种计算数值的不稳定性通常令我们难以训练出有效的深度模型。

在模型训练时,批量归一化利用小批量上的均值和标准差不断调整神经网络中间输出,从而使整个神经网络在各层的中间输出数值更稳定

1)对全连接层做批量归一化

通常,将批量归一化层置于全连接层中的仿射变换激活函数之间

首先,对小批量B求均值和方差:

标准化:

批量归一化层引入了两个可以学习的参数模型,拉伸参数\gamma和偏移参数\beta: 

2)对卷积层做批量归一化

卷积层来说,批量归一化发生在卷积计算之后应用激活函数之前

如果卷积计算输出多个通道,我们需要对这些通道的输出分别做批量归一化,且每个通道都拥有独立的拉伸和偏移参数,并均为标量

设小批量中有m个样本。在单个通道上,假设卷积计算输出的高和宽分别为p和q。我们需要对该通道中m×p×q个元素同时做批量归一化。对这些元素做标准化计算时,我们使用相同的均值和方差,即该通道中m×p×q个元素的均值和方差

3)预测时的批量归一化

使用批量归一化训练时,我们可以批量大小设得大一点,从而使批量内样本的均值和方差的计算都较为准确。

    将训练好的模型用于预测时,我们希望模型对于任意输入都有确定的输出。因此,单个样本的输出不应取决于批量归一化所需要的随机小批量中的均值和方差。一种常用的方法是通过移动平均估算整个训练数据集的样本均值和方差,并在预测时使用它们得到确定的输出。可见,和丢弃层一样,批量归一化层在训练模式和预测模式下的计算结果也是不一样的

小结:

①在模型训练时,批量归一化利用小批量上的均值和标准差,不断调整神经网络的中间输出,从而使整个神经网络在各层的中间输出的数值更稳定

②对全连接层和卷积层做批量归一化的方法稍有不同。

③批量归一化层和丢弃层一样,在训练模式和预测模式的计算结果是不一样的

PyTorch提供了BatchNorm类方便使用。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值