【深度学习】对ResNet论文的理解

最新推荐文章于 2022-06-09 14:35:14 发布

张学渣

最新推荐文章于 2022-06-09 14:35:14 发布

阅读量680

点赞数 3

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_36302589/article/details/84973805

版权

深度学习专栏收录该内容

19 篇文章 1 订阅

订阅专栏

ResNet在2015年被提出，在ImageNet比赛classfication任务上获得了第一名，因为它“简单与实用”并存，之后很多方法都建立在ResNet50或者ResNet101的基础上完成的，检测、分割、识别等领域纷纷使用ResNet，Alpha zero也使用ResNet，所以可见ResNet确实很好用。

一 ResNet的意义

深度卷积网络在图像分类领域取得了一系列的突破，深度网络通过多层端到端的方式，继承了低、中、高三个层次的特征和分类器，并且这些特征的数量还可以通过堆叠层数来增加。在ImageNet数据集上获胜的网络揭示了网络深度的重要性。

随着网络层数的增加，一系列的问题凸显出来。比较显著的有梯度消失或者梯度爆炸，这会在一开始就影响收敛。收敛的问题可以通过正则化，BatchNormalization等方法得到解决。

在深层网络能够收敛的前提下，随着网络深度的增加，正确率开始饱和甚至下降，称之为网络的退化(degradation)问题。 示例可见Figure 1. 显然，56层的网络相对于20层的网络，不管是训练误差还是测试误差都显著增大。

很明显，这些退化并不是由于过拟合造成的，在给定的网络上增加层数会增加训练误差，网络的退化说明不是所有的系统都很容易优化。考虑一个浅层的网络架构和在它基础上构建的深层网络，在极端条件下，如果增加的所有层都是前一层的直接复制（即y=x），这种情况下深层网络的训练误差应该和浅层网络相等。因此，网络退化的根本原因还是优化问题。为了解决优化的难题，提出了残差网络。

什么是残差？

其中ResNet提出了两种mapping：一种是identity mapping，指的就是图中”弯弯的曲线”，另一种residual mapping，指的就是除了”弯弯的曲线“那部分，所以最后的输出是 y=F(x)+x identity mapping顾名思义，就是指本身，也就是公式中的x
，而residual mapping指的是“差”，也就是y−x，所以残差指的就是F(x)部分。

为什么ResNet可以解决“随着网络加深，准确率不下降”的问题？

除了实验证明外：

这里写图片描述

解释一：

理论上，对于“随着网络加深，准确率下降”的问题，Resnet提供了两种选择方式，也就是identity mapping和residual mapping，如果网络已经到达最优，继续加深网络，residual mapping将被push为0，只剩下identity mapping，这样理论上网络一直处于最优状态了，网络的性能也就不会随着深度增加而降低了。

解释二：

这实际上是源自残差表示法（Residual Representations）的思想。

在图像识别中，VLAD是一种由残差向量关于字典的编码表示，而Fisher Vector可以被定义为VLAD的概率版本，它们都是图像检索和分类的强大的浅层表示。对于向量化，编码残差向量比编码原始向量更有效。
在低层次的视觉和计算机图形学中，为了解偏微分方程，一般使用的多网格法。就是将系统重新设计成多个尺度下的子问题，每个子问题负责一个较粗的和更细的尺度之间的残差解。多网格的另一种选择是分层基础的预处理，它依赖于在两个尺度之间表示残差向量的变量。研究表明，这些（转化成多个不同尺度的子问题，求残差解的）解决方案的收敛速度远远快于那些不知道残差的标准解决方案。

解释三：

“F是求和前网络映射，H是从输入到求和后的网络映射。比如把5映射到5.1，那么引入残差前是F'(5)=5.1，引入残差后是H(5)=5.1, H(5)=F(5)+5, F(5)=0.1。这里的F'和F都表示网络参数映射，引入残差后的映射对输出的变化更敏感。比如s输出从5.1变到5.2，映射F'的输出增加了1/51=2%，而对于残差结构输出从5.1到5.2，映射F是从0.1到0.2，增加了100%。明显后者输出变化对权重的调整作用更大，所以效果更好。残差的思想都是去掉相同的主体部分，从而突出微小的变化，看到残差网络我第一反应就是差分放大器”

二 ResNet结构

整个ResNet最重要的就是上面的identity，作者称这个结构整体是 residual block，下面是两种residual block的设计：

这里写图片描述

这两种结构分别对应ResNet18/34和ResNet50/101/152，右图又称为一个bottleNeck，目的一目了然，就是为了减少参数个数的，第一个1x1的卷积把256维channel降到64维，然后在最后通过1x1卷积恢复，整体上用的参数数目：1x1x256x64 + 3x3x64x64 + 1x1x64x256 = 69632，而不使用bottleneck的话就是两个3x3x256的卷积，参数数目: 3x3x256x256x2 = 1179648，差了16.94倍。

Resnet网络结构的设计遵循两种设计规则：（1）对于相同的输出特征图尺寸，层具有相同数量的滤波器；（2）如果特征图大小减半，则滤波器的数量加倍，以便保持每一层的时间复杂度。
当F（x）和x的channel个数不一样的时候，有两种方法解决：1）用zero-padding去增加维度，2）用1x1卷积来增加维度

三 ResNet50和ResNet101

这里写图片描述

首先我们看一下表2，上面一共提出了5中深度的ResNet，分别是18，34，50，101和152，首先看表2最左侧，我们发现所有的网络都分成5部分，分别是：conv1，conv2_x，conv3_x，conv4_x，conv5_x，之后的其他论文也会专门用这个称呼指代ResNet50或者101的每部分。
拿101-layer那列，我们先看看101-layer是不是真的是101层网络，首先有个输入7x7x64的卷积，然后经过3 + 4 + 23 + 3 = 33个building block，每个block为3层，所以有33 x 3 = 99层，最后有个fc层(用于分类)，所以1 + 99 + 1 = 101层，确实有101层网络； 注：101层网络仅仅指卷积或者全连接层，而激活层或者Pooling层并没有计算在内；
这里我们关注50-layer和101-layer这两列，可以发现，它们唯一的不同在于conv4_x，ResNet50有6个block，而ResNet101有23个block，插入了17个block，也就是17 x 3 = 51层。

四基于ResNet101的Faster RCNN

实际的基于ResNet101的Faster RCNN的结构图：

这里写图片描述

上图展示了整个Faster RCNN的架构，其中蓝色的部分为ResNet101，可以发现conv4_x的最后的输出为RPN和RoI Pooling共享的部分，而conv5_x(共9层网络)都作用于RoI Pooling之后的一堆特征图(14 x 14 x 1024)，特征图的大小维度也刚好符合原本的ResNet101中conv5_x的输入；
最后大家一定要记得最后要接一个average pooling，得到2048维特征，分别用于分类和框回归。

五总结

ResNet和Highway Network的思路比较类似，都是将部分原始输入的信息不经过矩阵乘法和非线性变换，直接传输到下一层。这就如同在深层网络中建立了许多条信息高速公路。ResNet通过改变学习目标，即不再学习完整的输出F(x)，而是学习残差H(x)−x，解决了传统卷积层或全连接层在进行信息传递时存在的丢失、损耗等问题。通过直接将信息从输入绕道传输到输出，一定程度上保护了信息的完整性。同时，由于学习的目标是残差，简化了学习的难度。根据Schmidhuber教授的观点，ResNet类似于一个没有gates的LSTM网络，即旁路输入x一直向之后的层传递，而不需要学习。有论文表示，ResNet的效果类似于对不同层数网络进行集成方法。

参考blogs：

https://blog.csdn.net/lanran2/article/details/79057994#commentBox

https://blog.csdn.net/qq_17550379/article/details/80359471

https://blog.csdn.net/csdnldp/article/details/78313087

https://blog.csdn.net/caicai2526/article/details/79819586

张学渣

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
【深度学习】对ResNet论文的理解

ResNet在2015年被提出，在ImageNet比赛classfication任务上获得了第一名，因为它“简单与实用”并存，之后很多方法都建立在ResNet50或者ResNet101的基础上完成的，检测、分割、识别等领域纷纷使用ResNet，Alpha zero也使用ResNet，所以可见ResNet确实很好用。一 ResNet的意义深度卷积网络在图像分类领域取得了一系列的突破，深度网络...
复制链接

扫一扫