【论文笔记】ResNet研读

22 篇文章 0 订阅
17 篇文章 1 订阅

ResNet网络是在2015年由微软实验室提出,斩获当年ImageNet竞赛中分类任务第一名,目标检测第一名。获得COCO数据集中目标检测第一名,图像分割第一名。下图是ResNet34层模型的结构简图。
在这里插入图片描述
在ResNet网络中有如下几个亮点

  • (1) 提出residual结构(残差结构),并搭建超深的网络结构(突破1000层)
  • (2) 使用Batch Normalization加速训练(丢弃dropout)

在ResNet网络提出之前,传统的卷积神经网络都是通过将一系列卷积层与下采样层(池化层)进行堆叠得到的。但是当堆叠到一定网络深度时,就会出现两个问题。

  • (1) 梯度消失或梯度爆炸
  • (2) 退化问题(degradation problem)

在ResNet论文中说通过数据的预处理以及在网络中使用BN(Batch Normalization)层能够解决梯度消失或者梯度爆炸问题。但是对于退化问题(随着网络层数的加深,效果还会变差,如下图所示)并没有很好的解决办法。
在这里插入图片描述
所以ResNet论文提出了residual结构(残差结构)来减轻(解决)退化问题。下图是使用residual结构的卷积网络,可以看到随着网络的不断加深,效果并没有变差,反而变的更好了。
在这里插入图片描述
接下来,我们就来分析下论文中的残差结构(residual),下图是论文中给出的两种残差结构。

左边的残差结构是针对层数较少网络,例如ResNet18层和ResNet34层网络。

右边的残差结构是针对网络层数较多的网络,例如ResNet101,ResNet152等。

为什么深层网络要使用右边的残差结构呢。因为,右侧的残差结构能够减少网络参数与运算量。同样输入一个channel为256的特征矩阵,如果使用左侧的残差结构需要大约1170648个参数,但如果使用右侧的残差结构只需要69632个参数。明显搭建深层网络时,使用右侧的残差结构更合适。
在这里插入图片描述
左边的残差结构剖解:
在这里插入图片描述

"""
resnet18,resnet34用的残差模块
"""
class BasicBlock(nn.Module):
    expansion = 1

    def __init__(self, in_channel, out_channel, stride=1, downsample=None, **kwargs):
        super(BasicBlock, self).__init__()
        
        # 第1层,conv+bn+relu
        self.conv1 = nn.Conv2d(in_channels=in_channel, out_channels=out_channel, kernel_size=3, stride=stride, padding=1, bias=False) # 3*3卷积
        self.bn1 = nn.BatchNorm2d(out_channel)
        self.relu = nn.ReLU()
        
        # 第2层,conv+bn
        self.conv2 = nn.Conv2d(in_channels=out_channel, out_channels=out_channel, kernel_size=3, stride=1, padding=1, bias=False) # 3*3卷积
        self.bn2 = nn.BatchNorm2d(out_channel)
        
        # None,实线残差; not None,虚线残差; 
        self.downsample = downsample

    def forward(self, x):
        identity = x
        
        # 若downsample的值不为None,进行下采样,虚线残差;否则实线残差
        if self.downsample is not None:
            identity = self.downsample(x)
        
        # 第1层的正向传播,conv+bn+relu
        out = self.conv1(x)
        out = self.bn1(out)
        out = self.relu(out)
        
        # 第2层的正向传播, conv+bn
        out = self.conv2(out)
        out = self.bn2(out)
        
        # 进行相加add操作, 然后relu激活
        out += identity
        out = self.relu(out)

        return out

右边的残差结构剖解:
在这里插入图片描述

"""
resnet50,resnet101,resnet152,用的残差模块
init()函数是预定义网络架构,forward函数是进行前向传播
"""
class Bottleneck(nn.Module):
    """
    注意:原论文中,在虚线残差结构的主分支上,第一个1x1卷积层的步距是2,第二个3x3卷积层步距是1。
    但在pytorch官方实现过程中是第一个1x1卷积层的步距是1,第二个3x3卷积层步距是2,
    这么做的好处是能够在top1上提升大概0.5%的准确率。
    可参考Resnet v1.5 https://ngc.nvidia.com/catalog/model-scripts/nvidia:resnet_50_v1_5_for_pytorch
    """
    expansion = 4  # 输出通道数的倍乘

    def __init__(self, in_channel, out_channel, stride=1, downsample=None, groups=1, width_per_group=64):
        super(Bottleneck, self).__init__()

        width = int(out_channel * (width_per_group / 64.)) * groups
        
        # 第1层, conv+bn+relu
        self.conv1 = nn.Conv2d(in_channels=in_channel, out_channels=width, kernel_size=1, stride=1, bias=False)  # 1*1卷积, squeeze channels
        self.bn1 = nn.BatchNorm2d(width)
        
        # 第2层, conv+bn+relu
        self.conv2 = nn.Conv2d(in_channels=width, out_channels=width, groups=groups, kernel_size=3, stride=stride, bias=False, padding=1) # 3*3卷积
        self.bn2 = nn.BatchNorm2d(width)
        
        # 第3层, conv+bn
        self.conv3 = nn.Conv2d(in_channels=width, out_channels=out_channel*self.expansion, kernel_size=1, stride=1, bias=False)  # 1*1卷积, unsqueeze channels
        self.bn3 = nn.BatchNorm2d(out_channel*self.expansion)
        
        self.relu = nn.ReLU(inplace=True)
        
        self.downsample = downsample

    def forward(self, x):
        identity = x
        if self.downsample is not None:
            identity = self.downsample(x)
        
        #第1层的正向传播: conv+bn+relu
        out = self.conv1(x)
        out = self.bn1(out)
        out = self.relu(out)
        
        #第2层的正向传播: conv+bn+relu
        out = self.conv2(out)
        out = self.bn2(out)
        out = self.relu(out)
        
        #第3层的正向传播: conv+bn
        out = self.conv3(out)
        out = self.bn3(out)

        out += identity
        out = self.relu(out)

        return out

参考
https://blog.csdn.net/qq_37541097/article/details/104710784

https://zhuanlan.zhihu.com/p/42410305

https://zhuanlan.zhihu.com/p/268308900

https://zhuanlan.zhihu.com/p/28124810

https://zhuanlan.zhihu.com/p/77899090

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

机器不学习我学习

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值