【深度学习】批量规范化

最新推荐文章于 2024-09-26 17:20:50 发布

Douglassssssss

最新推荐文章于 2024-09-26 17:20:50 发布

阅读量628

点赞数 21

分类专栏：深度学习文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/Douglassssssss/article/details/142498816

版权

深度学习专栏收录该内容

8 篇文章 1 订阅

订阅专栏

训练深层神经网络是十分困难的，光是之前简单的模型在简单的数据集上训练都不太轻松。

而批量规范化（batch normalization）是一种流行且有效的技术，可以帮助加快深层网络的收敛速度。

一、训练深层网络

我们回顾一下训练神经网络时出现的一些挑战。

首先，数据预处理的方式通常对最终结果产生巨大影响。

第二，对于典型的多层感知机或卷积神经网络，当我们训练时，中间层的变量可能具有更广的变化范围，随着训练更新的模型参数变幻莫测。

第三，更深层的网络很复杂，容易过拟合。

批量规范化应用于单个可选层（也可应用到所有层），其原理如下：

在每次迭代训练中，我们首先规范化输入，即通过减去其均值并除以其标准差，其中两者均基于当前小批量得到。接下来，我们应用比例系数和比例偏移。

需要注意的是，如果批量大小为 1，减去均值之后，每个隐藏单元将变为 0，那我们将无法学习到任何东西。

因此，只有使用足够大的小批量，批量规范化这种方法才是有效且稳定的。所以在应用批量规范化时，批量大小的选择相当重要。

二、批量规范化层

和激活函数、丢弃法（dropout）一样，批量规范化可看成一层网络：批量规范化层。

对于全连接层和卷积层，它们的批量规范化实现略有不同。

全连接层的批量规范化作用在特征维度上，而卷积层作用在通道维度上。

把图像的像素视为样本，通道视为特征，卷积层可理解为高维的全连接层。

全连接层

通常，我们将批量规范化层置于全连接层中的仿射变换和激活函数之间。

设全连接层的输入为 $x$ ，权重参数和偏置参数分别为 $\pmb{W}$ 和 $\pmb{b}$ ，激活函数为 $\phi$ ，批量规范化的运算符为 BN。

那么，使用批量规范化的全连接层的输出 $\pmb{h}$ 计算详情为：
$\pmb{h}=\phi(BN(\pmb{W}\pmb{x}+\pmb{b})).$

卷积层

同样，对于卷积层，我们可以在卷积层之后和非线性激活函数之前应用批量规范化。

当卷积层有多个输出通道时，我们需要对这些通道的“每个”输出执行批量规范化，每个通道都有自己的拉伸（scale）和偏移（shift）参数。

三、使用批量规范化层的 LeNet

回顾一下 LeNet 架构，一层 5$\times $5 卷积，填充大小为 2 ，输出通道数为 6 ；一层 2$ \times $2 汇聚层，步幅为 2 ；再一层 5$ \times $5 卷积层，输出通道数为 16 ；之后一层 2$ \times$2 汇聚层，步幅为 2；最后展平加上三层全连接层。

LeNet 中的数据流

代码实现为：

    net = nn.Sequential(      # LeNet模型
        nn.Conv2d(1, 6, kernel_size=5, padding=2), nn.Sigmoid(),
        nn.AvgPool2d(kernel_size=2, stride=2),
        nn.Conv2d(6, 16, kernel_size=5), nn.Sigmoid(),
        nn.AvgPool2d(kernel_size=2, stride=2),
        nn.Flatten(),
        nn.Linear(16 * 5 * 5, 120), nn.Sigmoid(),
        nn.Linear(120, 84), nn.Sigmoid(),
        nn.Linear(84, 10))

若想添加批量规范化层，在相应位置处加入相应的nn.BatchNorm即可。全连接层使用nn.BatchNorm1d，即 1 维；卷积层使用nn.BatchNorm2d，即 2 维。

传入的参数为全连接层的输出数量或卷积层的输出通道数，代码实现为：

    net = nn.Sequential(  # 带BN的LeNet模型
        nn.Conv2d(1, 6, kernel_size=5, padding=2), nn.BatchNorm2d(6), nn.Sigmoid(),
        nn.AvgPool2d(kernel_size=2, stride=2),
        nn.Conv2d(6, 16, kernel_size=5), nn.BatchNorm2d(16), nn.Sigmoid(),
        nn.AvgPool2d(kernel_size=2, stride=2),
        nn.Flatten(),
        nn.Linear(16 * 5 * 5, 120), nn.BatchNorm1d(120), nn.Sigmoid(),
        nn.Linear(120, 84), nn.BatchNorm1d(84), nn.Sigmoid(),
        nn.Linear(84, 10))