【第5篇】ResNet，2024年Python知识体系总结

2301_82242273

于 2024-04-11 00:37:21 发布

阅读量1.6k

点赞数 48

分类专栏： 2024年程序员学习文章标签： python 开发语言

本文链接：https://blog.csdn.net/2301_82242273/article/details/137617316

版权

2024年程序员学习专栏收录该内容

96 篇文章 0 订阅

订阅专栏

3.2 快捷恒等映射

我们每隔几个堆叠层采用残差学习。构建块如图2所示。在本文中我们考虑构建块正式定义为：

y = F ( x , W i ) + x (1) y=F(x,W_{i})+x\tag{1} y=F(x,Wi)+x(1) {公式1}

x和y是考虑的层的输入和输出向量。函数 F ( x , { W i } ) F(x,\{W_{i}\}) F(x,{Wi})表示要学习的残差映射。图2中的例子有两层， F = W 2 σ ( W 1 x ) F=W_{2}σ(W_{1}x) F=W2σ(W1x)中 σ σ σ表示ReLU[29]，为了简化写法忽略偏置项。 F + x F+x F+x操作通过快捷连接和各个元素相加来执行。在相加之后我们采纳了第二种非线性（即 σ ( y ) σ(y) σ(y)，看图2）。

方程(1)中的快捷连接既没有引入外部参数又没有增加计算复杂度。这不仅在实践中有吸引力，而且在简单网络和残差网络的比较中也很重要。我们可以公平地比较同时具有相同数量的参数，相同深度，宽度和计算成本的简单/残差网络（除了不可忽略的元素加法之外）。

方程(1)中 x 和 F x和F x和F的维度必须是相等的。如果不是这种情况（例如，当更改输入/输出通道时），我们可以通过快捷连接执行线性投影WsWs来匹配维度：

y = F ( x , { W i } ) + W s x . (2) y=F(x,\{W_{i}\})+W_{s}x.\tag{2} y=F(x,{Wi})+Wsx.(2)

我们也可以使用方程(1)中的方阵 W s W_{s} Ws。但是我们将通过实验表明，恒等映射足以解决退化问题，并且是合算的，因此 W s W_{s} Ws仅在匹配维度时使用。

残差函数FF的形式是可变的。本文中的实验包括有两层或三层（图5）的函数FF，同时可能有更多的层。但如果FF只有一层，方程(1)类似于线性层： y = W 1 x + x y=W_{1}x+x y=W1x+x，我们没有看到优势。

我们还注意到，为了简单起见，尽管上述符号是关于全连接层的，但它们同样适用于卷积层。函数 F ( x ， { W i } ) F(x，\{W_{i}\}) F(x，{Wi})可以表示多个卷积层。元素加法在两个特征图上逐通道进行。

3.3 网络架构

我们测试了各种简单/残差网络，并观察到了一致的现象。为了提供讨论的实例，我们描述了ImageNet的两个模型如下。

简单网络。我们简单网络的基准（图3，中间）主要受到VGG网络[40]（图3，左图）的哲学启发。卷积层主要有3×3的滤波器，并遵循两个简单的设计规则：（i）对于相同的输出特征图尺寸，层具有相同数量的滤波器；（ii）如果特征图尺寸减半，则滤波器数量加倍，以便保持每层的时间复杂度。我们通过步长为2的卷积层直接执行下采样。网络以全局平均池化层和具有softmax的1000维全连接层结束。图3（中间）的加权层总数为34。

图 3. ImageNet 的示例网络架构。左：作为参考的 VGG-19 模型 [41]（196 亿 FLOP）。中间：具有 34 个参数层（36 亿次浮点运算）的普通网络。右图：具有 34 个参数层（36 亿次浮点运算）的残差网络。虚线快捷方式增加了维度。表 1 显示了更多细节和其他变体。

值得注意的是我们的模型与VGG网络（图3左）相比，有更少的滤波器和更低的复杂度。我们的34层基准有36亿FLOP(乘加)，仅是VGG-19（196亿FLOP）的18%。

残差网络。基于上述的简单网络，我们插入快捷连接（图3，右），将网络转换为其对应的残差版本。当输入和输出具有相同的维度时（图3中的实线快捷连接）时，可以直接使用恒等快捷连接（方程（1））。当维度增加（图3中的虚线快捷连接）时，我们考虑两个选项：（A）快捷连接仍然执行恒等映射，额外填充零输入以增加维度。此选项不会引入额外的参数；（B）方程（2）中的投影快捷连接用于匹配维度（由1×1卷积完成）。对于这两个选项，当快捷连接跨越两种尺寸的特征图时，它们执行时步长为2。

3.4 实现

我们对 ImageNet 的实现遵循了 [21, 41] 中的做法。图像被调整大小，其较短的边在 [256;480] 中随机采样以进行缩放 [41]。 224 × 224 224×224 224×224 的裁剪是从图像或其水平翻转中随机采样的，减去每个像素的平均值 [21]。使用了 [21] 中的标准颜色增强。我们在每次卷积之后和激活之前采用批量归一化（BN）[16]，遵循 [16]。我们按照 [13] 中的方法初始化权重，并从头开始训练所有普通/残差网络。我们使用小批量大小为 256 的 SGD。学习率从 0.1 开始，并在误差平稳时除以 10，并且模型最多训练 60 × 104 次迭代。我们使用 0.0001 的权重衰减和 0.9 的动量。我们不使用 dropout [14]，遵循 [16] 中的做法。在测试中，对于比较研究，我们采用标准的 10 作物测试 [21]。为了获得最佳结果，我们采用 [41,13] 中的完全卷积形式，并在多个尺度上平均分数（调整图像大小，使短边位于 {224；256；384；480；640}）。

4 实验

===============================================================

4.1 ImageNet 分类

我们在包含 1000 个类别的 ImageNet 2012 分类数据集 [36] 上评估我们的方法。模型在 128 万张训练图像上进行训练，并在 5 万张验证图像上进行评估。我们还获得了测试服务器报告的 100k 测试图像的最终结果。我们评估 top-1 和 top-5 错误率。

普通网络。 我们首先评估 18 层和 34 层的普通网络。 34层素网如图3（中）。 18层素网也是类似的形式。有关详细架构，请参见表 1。

表 2 中的结果表明，较深的 34 层素网比较浅的 18 层素网具有更高的验证误差。为了揭示原因，在图 4（左）中，我们比较了他们在训练过程中的训练/验证错误。我们观察到了退化问题——34 层普通网络在整个训练过程中具有更高的训练误差，即使 18 层普通网络的解空间是 34 层网络的子空间。

我们认为这种优化困难不太可能是由梯度消失引起的。这些普通网络使用 BN [16] 进行训练，确保前向传播的信号具有非零方差。我们还验证了反向传播的梯度表现出 BN 的健康规范。因此，前向或后向信号都不会消失。事实上，34层的普通网仍然能够达到有竞争力的精度（表3），这表明求解器在一定程度上是有效的。我们推测深平原网络的收敛速度可能呈指数级低，这会影响训练误差的减少。未来将研究这种优化困难的原因。

残差网络。 接下来我们评估 18 层和 34 层残差网络（ResNets）。基线架构与上述普通网络相同，期望在每对 3×3 过滤器中添加一个快捷连接，如图 3（右）所示。在第一个比较中（表 2 和图 4 右），我们对所有快捷方式使用恒等映射，对增加维度使用零填充（选项 A）。因此，与普通对应物相比，它们没有额外的参数。

我们从表 2 和图 4 中得到了三个主要观察结果。首先，通过残差学习逆转了情况——34 层 ResNet 比 18 层 ResNet 好（2.8%）。更重要的是，34 层 ResNet 表现出相当低的训练误差，并且可以推广到验证数据。这表明退化问题在此设置中得到了很好的解决，我们设法从增加的深度中获得了精度增益。

其次，与普通对应物相比，34 层 ResNet 将 top-1 错误减少了 3.5%（表 2），这是由于成功减少了训练错误（图 4 右与左）。这种比较验证了残差学习在极深系统上的有效性。

最后，我们还注意到 18 层普通/残差网络相当准确（表 2），但 18 层 ResNet 收敛速度更快（图 4 右与左）。当网络“不太深”（这里是 18 层）时，当前的 SGD 求解器仍然能够找到对普通网络的良好解决方案。在这种情况下，ResNet 通过在早期提供更快的收敛来简化优化。

恒等与投影快捷方式。我们已经证明无参数的身份快捷方式有助于训练。接下来我们研究投影快捷方式（Eqn.（2））。在表 3 中，我们比较了三个选项： (A) 零填充快捷方式用于增加维度，并且所有快捷方式都是无参数的（与表 2 和图 4 右图相同）； (B) 投影快捷方式用于增加维度，其他快捷方式为恒等式； © 所有捷径都是投影

表 3 显示所有三个选项都比普通选项好得多。 B 略好于 A。我们认为这是因为 A 中的零填充维度确实没有残差学习。 C 略好于 B，我们将此归因于许多（十三个）投影快捷方式引入的额外参数。但是 A/B/C 之间的微小差异表明投影捷径对于解决退化问题并不是必不可少的。所以我们在本文的其余部分不使用选项 C，以减少内存/时间复杂度和模型大小。恒等的快捷方式对于不增加下面介绍的瓶颈架构的复杂性特别重要。

更深层次的瓶颈架构。 接下来，我们将描述我们用于 ImageNet 的更深层次的网络。由于担心我们可以负担得起的训练时间，我们将构建块修改为瓶颈设计4。对于每个残差函数 F，我们使用 3 层的堆栈而不是 2 层（图 5）。这三层分别是 1×1、3×3 和 1×1 卷积，其中 1×1 层负责减少然后增加（恢复）维度，使 3×3 层成为输入/输出维度较小的瓶颈 . 图 5 显示了一个示例，其中两种设计具有相似的时间复杂度。

无参数身份快捷方式对于瓶颈架构尤为重要。如果将图 5（右）中的恒等快捷方式替换为投影，可以看出时间复杂度和模型大小都增加了一倍，因为快捷方式连接到两个高维端。因此，恒等的快捷方式为瓶颈设计带来了更有效的模型。

50 层 ResNet：我们用这个 3 层瓶颈块替换 34 层网络中的每个 2 层块，从而产生 50 层 ResNet（表 1）。我们使用选项 B 来增加维度。这个模型有 38 亿次 FLOP。

101 层和 152 层 ResNet：我们通过使用更多的 3 层块构建 101 层和 152 层 ResNet（表 1）。值得注意的是，尽管深度显着增加，但 152 层 ResNet（113 亿 FLOP）的复杂度仍然低于 VGG-16/19 网络（15.3/196 亿 FLOP）。

50/101/152 层的 ResNet 比 34 层的 ResNet 准确度高很多（表 3 和 4）。我们没有观察到退化问题，因此可以从显着增加的深度中获得显着的精度提升。所有评估指标都见证了深度的好处（表 3 和 4）。

与最先进方法的比较。在表 4 中，我们与之前最好的单模型结果进行了比较。我们的基线 34 层 ResNets 已经达到了非常有竞争力的准确性。我们的 152 层 ResNet 具有 4.49% 的单模型 top-5 验证错误。这个单一模型的结果优于之前所有的集成结果（表 5）。我们将六个不同深度的模型组合成一个整体（提交时只有两个 152 层的模型）。这导致测试集上 3.57% 的 top-5 错误（表 5）。此条目在 ILSVRC 2015 中获得第一名。

在这里插入图片描述