Resnet

小白一个dd

已于 2023-11-06 14:34:43 修改

阅读量178

点赞数

文章标签：深度学习

于 2023-11-06 11:32:15 首次发布

本文链接：https://blog.csdn.net/qq_40374392/article/details/134241961

版权

背景

网络的深度在不断加深，层数深的网络可以提取出图片的低层、中层和高层特征。但当网络足够深时，仅仅在后面继续堆叠更多层会带来很多问题：第一个问题就是梯度爆炸 / 消失（vanishing / exploding gradients），这可以通过BN和更好的网络初始化解决；第二个问题就是退化（degradation）问题，即当网络层数多得饱和了，加更多层进去会导致优化困难、且训练误差和预测误差更大了，注意这里误差更大并不是由过拟合导致的。

什么是退化问题？

而模型退化指的是，给网络叠加更多的层后，分类准确率达到饱和，并且性能快速下降。如上图所示，左右两张图分别表示plain网络（类似VGG构造的深度神经网络）和ResNet网络在ImageNet数据集上的误差。其中横坐标表示迭代次数，纵坐标表示误差，细线表示训练误差，粗线表示验证误差。

按照经验，我们知道模型越深，模型的性能会越好，误差理应越小。但是，如上左图所示，越深的plain网络误差反而越大。在训练集上越深的模型性能反而下降，可以排除过拟合。同时，batchnorm（BN）层的引入也基本解决了plain 网络梯度消失和梯度爆炸的问题。如果不是过拟合和梯度消失导致的，那么什么原因导致模型“退化”呢？

我们假设有一个浅层网络，我们通过堆积新层的方式来建立更深的网络。那么深层网络的解空间应该是包含浅层网络的解空间。如果让那些新增的层不做任何的学习，仅仅简单的复制浅层网络的特征，即新层做恒等映射（identity mapping）。那么，在这种情况下，深层网络应该和浅层网络的性能一样，也不应该出现“退化现象”。更好的解明明存在，为什么找不到？找到的反而是最差的解？

显然，这是个优化问题，反应出结构相似的模型，其优化难度是不一样的，且难度的增长并不是线性的，越深的模型越难以优化。

有两种解决思想。一种是调整求解方法，比如更好的初始化方式，更好的梯度下降算法等；另一种则是调整模型结构，让模型更易于优化。

残差结构

形式上，将期望的基础映射表示为H(x)，我们将堆叠的非线性层拟合另一个映射F(x)=H(x)−x。原始的映射重写为F(x)+x。我们假设残差映射比原始的、未参考的映射更容易优化。在极端情况下，如果一个恒等映射是最优的，那么将残差置为零比通过一堆非线性层来拟合恒等映射更容易。快捷连接简单地执行恒等映射，并将其输出添加到堆叠层的输出（图2）。恒等快捷连接既不增加额外的参数也不增加计算复杂度。整个网络仍然可以由带有反向传播的SGD进行端到端的训练。

残差：观测值与估计值之间的差。
这里H(x)就是观测值，x就是估计值（也就是上一层ResNet输出的特征映射）。
我们一般称x为identity Function，它是一个跳跃连接；称F(x)为ResNet Function。

通俗理解：ResNet在一定程度上解决了这个问题，通过直接将输入信息绕道传到输出，保护信息的完整性，整个网络只需要学习输入、输出差别的那一部分，简化学习目标和难度。

残差学习

残差路径

残差路径可以大致分成2种，一种有bottleneck结构，即下图右中的1×1 卷积层，用于先降维再升维，主要出于降低计算复杂度的现实考虑，称之为“bottleneck block”，另一种没有bottleneck结构，如下图左所示，称之为“basic block”。basic block由2个3×3卷积层构成，bottleneck block由两个1×1卷积和1个3x3卷积层构成。

就采用Bottleneck结构，主要是引入1x1卷积。我们来看一下这里的1x1卷积有什么作用：

对通道数进行升维和降维（跨通道信息整合），实现了多个特征图的线性组合，同时保持了原有的特征图大小；
相比于其他尺寸的卷积核，可以极大地降低运算复杂度；
如果使用两个3x3卷积堆叠，只有一个relu，但使用1x1卷积就会有两个relu，引入了更多的非线性映射
我们来计算一下1*1卷积的计算量优势：首先看上图右边的bottleneck结构，对于256维的输入特征，参数数目：1x1x256x64+3x3x64x64+1x1x64x256=69632，如果同样的输入输出维度但不使用1x1卷积，而使用两个3x3卷积的话，参数数目为(3x3x256x256)x2=1179648。简单计算下就知道了，使用了1x1卷积的bottleneck将计算量简化为原有的5.9%，收益超高。

shortcut路径

shortcut路径大致也可以分成2种，取决于残差路径是否改变了feature map数量和尺寸，一种是将输入x原封不动地输出，另一种则需要经过1×1卷积来升维 or/and 降采样，主要作用是将输出与F(x)路径的输出保持shape一致，对网络性能的提升并不明显。

resnet网络结构

每个网络都包括三个主要部分：输入部分、输出部分和中间卷积部分（中间卷积部分包括如图所示的Stage1到Stage4共计四个stage）。尽管ResNet的变种形式丰富，但都遵循上述的结构特点，网络之间的不同主要在于中间卷积部分的block参数和个数存在差异。

ResNet的设计有如下特点：

与plain net相比，ResNet多了很多“旁路”，即shortcut路径，其首尾圈出的layers构成一个Residual Block；
每个卷积层之后都紧接着BatchNorm layer，为了简化，图中并没有标出；

如果特征地图大小减半，滤波器的数量加倍以保持每层的时间复杂度；
每个stage通过步长为2的卷积层执行下采样，而却这个下采样只会在每一个stage的第一个卷积完成，有且仅有一次。
通过Average Pooling得到最终的特征，而不是通过全连接层；

参考博客：

resnet论文详解附代码实现 - 知乎 (zhihu.com)

ResNet及其变种的结构梳理、有效性分析与代码解读 - 知乎 (zhihu.com)

ResNet论文笔记及代码剖析 - 知乎 (zhihu.com)

ResNet详解——通俗易懂版-CSDN博客

ResNet论文详解_resnet1202-CSDN博客

小白一个dd

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Resnet

形式上，将期望的基础映射表示为H(x)，我们将堆叠的非线性层拟合另一个映射F(x)=H(x)−x。残差路径可以大致分成2种，一种有bottleneck结构，即下图右中的1×1 卷积层，用于先降维再升维，主要出于降低计算复杂度的现实考虑，称之为“bottleneck block”，另一种没有bottleneck结构，如下图左所示，称之为“basic block”。那么深层网络的解空间应该是包含浅层网络的解空间。显然，这是个优化问题，反应出结构相似的模型，其优化难度是不一样的，且难度的增长并不是线性的，
复制链接

扫一扫