resnet结构_ResNet及其变体结构梳理与总结

最新推荐文章于 2024-07-26 10:51:04 发布

weixin_39889487

最新推荐文章于 2024-07-26 10:51:04 发布

阅读量1.8k

点赞数

文章标签： resnet结构 resnet网络结构

本文链接：https://blog.csdn.net/weixin_39889487/article/details/111297025

版权

本文详细梳理了ResNet系列网络结构，包括ResNet、preResNet和ResNeXt。ResNet通过残差块解决了深度网络的退化问题，ResNeXt则通过同构的多分支结构进一步提升性能。文章介绍了残差学习的概念，以及ResNet中的关键元素如批量归一化和瓶颈结构，并提供了相关代码实现。

摘要由CSDN通过智能技术生成

网络结构

Author：murufeng

From：深度学习技术前前沿

【导读】2020年，在各大CV顶会上又出现了许多基于ResNet改进的工作，比如:Res2Net，ResNeSt，IResNet，SCNet等等。为了更好的了解ResNet整个体系脉络的发展，我们特此对ResNet系列重新梳理，并制作了一个ResNet专题，希望能帮助大家对ResNet体系有一个更深的理解。本篇文章我们将主要讲解ResNet、preResNet、ResNext以及它们的代码实现。

ResNet

论文链接：https://arxiv.org/abs/1512.03385
代码地址：https://github.com/KaimingHe/deep-residual-networks
pytorch版：https://github.com/Cadene/pretrained-models.pytorch

Motivation 和创新点 深度学习的发展从LeNet到AlexNet，再到VGGNet和GoogLeNet，网络的深度在不断加深，经验表明，网络深度有着至关重要的影响，层数深的网络可以提取出图片的低层、中层和高层特征。但当网络足够深时，仅仅在后面继续堆叠更多层会带来很多问题：第一个问题就是 梯度爆炸 / 消失(vanishing / exploding gradients)，backprop无法把有效地把梯度更新到前面的网络层，导致前面的层参数无法更新。第二个问题就是 退化(degradation)问题，即当网络层数堆叠过多会导致优化困难、且训练误差和预测误差更大了，注意这里误差更大并不是由过拟合导致的。 ResNet旨在解决网络加深后训练难度增大的现象。其提出了residual模块，包含两个3×3卷积和一个shortcut connection。shortcut connection可以有效缓解反向传播时由于深度过深导致的梯度消失现象，这使得网络加深之后性能不会变差。短路连接是深度学习又一重要思想，除计算机视觉外，短路连接也被用到了机器翻译、语音识别/合成领域。此外，具有短路连接的ResNet可以看作是许多不同深度而共享参数的网络的集成，网络数目随层数指数增加。 值得注意的是：在此之前已有研究者使用跨层连接对响应和梯度中心化(center)处理；inception结构本质也是跨层连接；highway网络也使用到了跨层连接

ResNet的关键点是：

利用残差结构让网络能够更深、收敛速度更快、优化更容易，同时参数相对之前的模型更少、复杂度更低
ResNet大量使用了批量归一层，而不是Dropout。
对于很深的网络(超过50层)，ResNet使用了更高效的瓶颈(bottleneck)结构极大程度上降低了参数计算量。

ResNet的残差结构

为了解决退化问题，我们引入了一个新的深度残差学习block，在这里，对于一个堆积层结构(几层堆积而成)当输入为时，其学习到的特征记为，现在我们希望其可以学习到残差，这样其实原始的学习特征是。之所以这样是因为残差学习相比原始特征直接学习更容易。当残差为0时，此时堆积层仅仅做了恒等映射，至少网络性能不会下降，实际上残差不会为0，这也会使得堆积层在输入特征基础上学习到新的特征，从而拥有更好的性能。

本质也就是不改变目标函数，将网络结构拆成两个分支，一个分支是残差映射，一个分支是恒等映射，于是网络仅需学习残差映射即可。对于上述残差单元，我们可以从数学的角度来分析一下，首先上述结构可表示为：

其中和分别表示的是第个残差单元的输入和输出，注意每个残差单元一般包含多层结构。是残差函数，表示学习到的残差，而表示恒等映射，是ReLU激活函数。基于上式，我们求得从浅层到深层的学习特征为：

利用链式规则，可以求得反向过程的梯度：

式子的第一个因子表示的损失函数到达的梯度，小括号中的1表明短路机制可以无损地传播梯度，而另外一项残差梯度则需要经过带有weights的层，梯度不是直接传递过来的。残差梯度不会那么巧全为-1，而且就算其比较小，有1的存在也不会导致梯度消失。所以残差学习会更容易。要注意上面的推导并不是严格的证明。

残差结构为什么有效？

自适应深度：网络退化问题就体现了多层网络难以拟合恒等映射这种情况，也就是说难以拟合，但使用了残差结构之后，拟合恒等映射变得很容易，直接把网络参数全学习到为0，只留下那个恒等映射的跨层连接即可。于是当网络不需要这么深时，中间的恒等映射就可以多一点，反之就可以少一点。(当然网络中出现某些层仅仅拟合恒等映射的可能性很小，但根据下面的第二点也有其用武之地；另外关于为什么多层网络难以拟合恒等映射，这涉及到信号与系统的知识见:https://www.zhihu.com/question/293243905/answer/484708047)
差分放大器：假设最优更接近恒等映射，那么网络更容易发现除恒等映射之外微小的波动
模型集成：整个ResNet类似于多个网络的集成，原因是删除ResNet的部分网络结点不影响整个网络的性能，但VGGNet会崩溃，具体可以看这篇NIPS论文：Residual Networks Behave Like Ensembles of Relatively Shallow Networks
缓解梯度消失：针对一个残差结构对输入求导就可以知道，由于跨层连接的存在，总梯度在对的导数基础上还会加1

下面给出一个直观理解图：

如上图所示，左边来了一辆装满了“梯度”商品的货车，来领商品的客人一般都要排队一个个拿才可以，如果排队的人太多，后面的人就没有了。于是这时候派了一个人走了“快捷通道”，到货车上领了一部分“梯度”，直接送给后面的人，这样后面排队的客人就能拿到更多的“梯度”。

bottleneck(利用1*1卷积)的好处-两种残差单元

我们来计算一下1*1卷积的计算量优势：首先看上图右边的bottleneck结构，对于256维的输入特征，参数数目：1x1x256x64+3x3x64x64+1x1x64x256=69632，如果同样的输入输出维度但不使用1x1卷积，而使用两个3x3卷积的话，参数数目为(3x3x256x256)x2=1179648。简单计算下就知道了，使用了1x1卷积的bottleneck将计算量简化为原有的5.9%，收益超高。

详细见：【基础积累】1x1卷积到底有哪些用处？

ResNet网络设计结构：

基于Pytorch的ResNet代码实现

def conv3x3(in_planes, out_planes, stride=1):
    """3x3 convolution with padding"""
    return nn.Conv2d(in_planes, out_planes, kernel_size=3, stride=stride,
                     padding=1, bias=False)


class Bottleneck(nn.Module):
    expansion = 4

    def __init__(self, inplanes, planes, stride=1, downsample=None):
        super(Bottleneck, self).__init__()

最低0.47元/天解锁文章

weixin_39889487

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
resnet结构_ResNet及其变体结构梳理与总结

网络结构Author：murufengFrom：深度学习技术前前沿【导读】2020年，在各大CV顶会上又出现了许多基于ResNet改进的工作，比如:Res2Net，ResNeSt，IResNet，SCNet等等。为了更好的了解ResNet整个体系脉络的发展，我们特此对ResNet系列重新梳理，并制作了一个ResNet专题，希望能帮助大家对ResNet体系有一个更深的理解。本篇文章我们将主...
复制链接

扫一扫