ResNet：Deep Residual Learning for Image Recognition

浑水的鱼(3.0版)

已于 2023-02-27 20:37:42 修改

阅读量550

点赞数 2

文章标签：深度学习目标检测计算机视觉

于 2023-02-27 20:12:19 首次发布

本文链接：https://blog.csdn.net/COINVK/article/details/129160423

版权

Deep Residual Learning for Image Recognition

用于图像识别的深度残差学习

2016 CVPR最佳论文；

论文一作：何恺明；
何恺明其他著作：Mask R-CNN和PReLU等；

机构：微软亚洲研究院(Microsoft Research)；

本文提出ResNet(ResNet-50/ResNet-101/ResNet-152)，152层的网络，CNN的又一里程碑，超越人类的水平；

ResNet引入残差连接(short cut connection)，解决网络退化问题：训练集误差大，测试集误差大；

在2015年的ImageNet分类/定位/目标检测和2015年的COCO目标检测/分割中都获得了冠军；

发表时间：[Submitted on 10 Dec 2015]；

发表期刊/会议：Computer Vision and Pattern Recognition；

论文地址：https://arxiv.org/abs/1512.03385；

0 摘要

更深层的神经网络更难训练；

本文提出一个残差学习框架来简化网络的训练，提出的网络要比以往的网络架构更深；

本文明确的对学习的架构进行了重构，之前的网络学习出/拟合出一个分布，现在的网络用来拟合相对于上一层的残差(residual)；

本文进行了全面的实验证明这些残差网络的性能更好，并且可以显著的从网络深度中获得精度的收益；

提出ResNet-152——比VGG深8倍，但是模型复杂度比VGG低；

1 简介

深度网络以端到端的多层方式自然地集成了低层/中层/高层特征和分类器，网络越深，提取到的特征就越丰富；

直接将网络堆叠到很深可以么？

——梯度消失/梯度爆炸问题，可以通过归一化或各种初始化技巧解决；

——网络退化(degradation)问题，深层网络在训练集和测试集的结果都变得差，如图1所示(退化问题不是过拟合问题，过拟合在训练集表现很好，在测试集表现差)；

解决网络退化问题的一个方案：

浅模型的输入变为两个分支，一个分支不变(identity mapping)，另一个分支同样用浅模型来处理，最后将结果汇总，这样加深网络至少保证网络性能不会下降；
——但是，这是个递归结构，很难优化，无法求解；

本文为了解决退化问题，提出一个深度残差学习框架(deep residual learning framework)，模型不再拟合原先底层的映射 $H (x)$ ，而是去拟合相对于输入的残差 $F (x) = H (x) - x$ ，如图2所示：

把图2所示的连接方式称为残差连接“shortcut connections”，或者称为恒等映射"identity mapping"；

identity mapping不会引入额外的参数或者计算量，整个网络仍然可以用SGD进行端到端的训练；

在ImageNet上进行了综合实验：

极深残差网很容易优化(不会出现退化现象)，但如VGG这种深层网络会出现退化问题；
本文的深度网络可以提升各项计算机视觉任务的性能；

在CIFAR-10数据集上，实现了100层网络和1000层网络进行实验；

2 相关工作

Residual Representations

Shortcut Connections

3 深度残差学习

3.1 残差学习

$H (x)$ ：底层映射，原本的结果；

$x$ ：该层的输入；

根据万能近似定理 (universal approximation theorem)，我们不直接去拟合/学习 $H (x)$ ，而是学习相对于输入的残差 $F (x) = H (x) - x$ (假设输入与输出维度是相同的)；

最后将加上残差，就和原来学习底层映射效果是一样的，但是网络更容易学习了；

加了恒等映射后，深层网络至少不会比浅层网络学的差，如果当前的恒等映射已经是最优的了，那残差模块只需拟合零映射即可(非常好学习)；

在实际情况下，恒等映射都不太可能是最优的，因此残差结构有助于解决这个问题，通过对输入进行处理来解决；

注：万能近似定理(universal approximation theorem)，是深度学习最根本的理论依据。它声明了在给定网络具有足够多的隐藏单元的条件下，配备一个线性输出层和一个带有任何“挤压”性质的激活函数(如logistic
sigmoid激活函数)的隐藏层的前馈神经网络，能够以任何想要的误差量近似任何从一个有限维度的空间映射到到另一个有限维度空间的Borel可测的函数。

3.2 通过shorcuts完成恒等映射

对每层都使用残差连接来学习，如下式表述：

$x$ ：某层输入向量；
$y$ ：某层输出向量；

$F(x,{W_{i}})$ ：残差网络的输出；
也可以写作： $F = W_{2}σ(W_{1}x)$ (对应于图2)；

将两个结果进行逐元素相加(element-wise addition)，得到输出结果 $y$ ；

要求 $F$ 与 $x$ 结果大小必须相同，如果不同，则需要对恒等映射进行一次线性变换；

残差函数 $F$ 的形式是灵活多样的，可以是图2那样的2层，也可以是3层或更多，如图5右所示；

但如果只有一层，残差学习就没有优势了，这时候相当于线性层；

3.3 网络架构

Plain Network普通网络：如图3中间的图所示；

和VGG类似；
3×3卷积；
每一个block内，特征图不变，卷积核个数不变；
block之间，特征图减半，卷积核个数增加一倍；
通过步长为2的卷积层直接执行下采样(VGG使用GAP)；
此模型参数是VGG的18%；

Residual Network残差网络：如图3左示意；

残差连接为实线：表示维度相同；
残差连接为虚线：表示维度不同，升维的两种方式:
- 1：对多出来的通道进行padding 0操作，没有引入额外参数；
- 2：做1×1卷积，进行升维/降维，引入额外参数；

图3：模型架构

import torch as t
from torch import  nn
from torch.nn import functional as F


class ResidualBlock(nn.Module):
    def __init__(self,inchanel,outchanel,stride=1,shortcut=None):
        super(ResidualBlock,self).__init__()
        self.left=nn.Sequential(
            nn.Conv2d(inchanel,outchanel,3,stride,1,bias=False),
            nn.BatchNorm2d(outchanel),
            nn.ReLU(inplace=True),
            nn.Conv2d(outchanel,outchanel,3,1,1,bias=False),
            nn.BatchNorm2d(outchanel)
        )
        self.right=shortcut
    def forward(self, x):
        out=self.left(x)
        residual = x if self.right is None else self.right(x)
        out += residual
        return F.relu(out)

class ResNet34(nn.Module):

    def __init__(self,num_classes=1000):
        """
        构建ResNet34网络的各层结构
        :param num_classes:
        """
        super(ResNet34,self).__init__()
        self.pre=nn.Sequential(
            nn.Conv2d(3, 64, 7, 2, 3, bias=True),
            nn.BatchNorm2d(64),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(3,2,1)
        )
        self.layer1 = self.__make_layer__(64,128,3)
        self.layer2 = self.__make_layer__(128,256,4,stride=2)
        self.layer3 = self.__make_layer__(256,512,6,stride=2)
        self.layer4 = self.__make_layer__(512,512,3,stride=2)
        self.fc = nn.Linear(512, num_classes)

    def __make_layer__(self,inchannel,outchannel,block_num,stride=1):
        """
        构建layer，包含多个residual block
        :param inchannel:
        :param outchannel:
        :param block_num:
        :param stride:
        :return:
        """
        shortcut = nn.Sequential(
            nn.Conv2d(inchannel,outchannel,1,stride,bias=False),
            nn.BatchNorm2d(outchannel)
        )
        layers = []
        layers.append(ResidualBlock(inchannel,outchannel,stride,shortcut))
        for i in range(1,block_num):
            layers.append(ResidualBlock(inchannel,outchannel))
        return  nn.Sequential(*layers)

    def forward(self, x):
        x = self.pre(x)

        x = self.layer1(x)
        x = self.layer2(x)
        x = self.layer3(x)
        x = self.layer4(x)

        x = F.avg_pool2d(x,7)
        x = x.view(x.size(0),-1)
        return self.fc(x)