Batch Normalization批量归一化

香菜烤面包

已于 2022-12-19 16:57:36 修改

阅读量529

点赞数

分类专栏：深度学习算法与框架文章标签： batch 深度学习神经网络

于 2022-12-19 16:56:15 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/daydayup858/article/details/128374692

版权

深度学习算法与框架专栏收录该内容

36 篇文章 21 订阅

订阅专栏

批量归一化（batch normalization）层，它能让较深的神经网络的训练变得更加容易。

对深层神经网络来说，即使输入数据已做标准化，训练中模型参数的更新依然很容易造成靠近输出层输出的剧烈变化。这种计算数值的不稳定性通常令我们难以训练出有效的深度模型。

在模型训练时，批量归一化利用小批量上的均值和标准差，不断调整神经网络中间输出，从而使整个神经网络在各层的中间输出的数值更稳定。

1）对全连接层做批量归一化

通常，将批量归一化层置于全连接层中的仿射变换和激活函数之间。

首先，对小批量B求均值和方差：

标准化：

批量归一化层引入了两个可以学习的参数模型，拉伸参数 $\gamma$ 和偏移参数 $\beta$ ：

2）对卷积层做批量归一化

对卷积层来说，批量归一化发生在卷积计算之后、应用激活函数之前。

如果卷积计算输出多个通道，我们需要对这些通道的输出分别做批量归一化，且每个通道都拥有独立的拉伸和偏移参数，并均为标量。

设小批量中有m个样本。在单个通道上，假设卷积计算输出的高和宽分别为p和q。我们需要对该通道中m×p×q个元素同时做批量归一化。对这些元素做标准化计算时，我们使用相同的均值和方差，即该通道中m×p×q个元素的均值和方差。

3）预测时的批量归一化

使用批量归一化训练时，我们可以将批量大小设得大一点，从而使批量内样本的均值和方差的计算都较为准确。

将训练好的模型用于预测时，我们希望模型对于任意输入都有确定的输出。因此，单个样本的输出不应取决于批量归一化所需要的随机小批量中的均值和方差。一种常用的方法是通过移动平均估算整个训练数据集的样本均值和方差，并在预测时使用它们得到确定的输出。可见，和丢弃层一样，批量归一化层在训练模式和预测模式下的计算结果也是不一样的。

小结：

①在模型训练时，批量归一化利用小批量上的均值和标准差，不断调整神经网络的中间输出，从而使整个神经网络在各层的中间输出的数值更稳定。

②对全连接层和卷积层做批量归一化的方法稍有不同。

③批量归一化层和丢弃层一样，在训练模式和预测模式的计算结果是不一样的。

④PyTorch提供了BatchNorm类方便使用。

香菜烤面包

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Batch Normalization批量归一化

Batch Normalization批量归一化
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。