何恺明编年史之深度残差网络ResNet

CPones

已于 2022-03-15 21:48:39 修改

阅读量3.3k

点赞数 2

文章标签：深度学习计算机视觉卷积神经网络

于 2022-03-15 21:47:21 首次发布

本文链接：https://blog.csdn.net/weixin_40928633/article/details/123295657

版权

本文介绍了ResNet深度残差网络的设计原理，旨在解决深度学习中网络退化的问题。通过引入残差模块，网络能够更有效地训练更深的层次，避免梯度消失或爆炸。在实验中，即使层数增加，网络性能也能得到提升。作者还提供了Pytorch实现的Resnet50代码示例，展示了如何构建和应用残差块。该文适合对深度学习感兴趣的读者，特别是想要了解ResNet工作原理的开发者。

摘要由CSDN通过智能技术生成

前言

图像分类是计算机视觉任务的基石，在目标监测、图像分割等任务中需要使用骨干网咯，将浅层的视觉特征映射到深层的语义特征，以发现高层数据的分布式特征表示。在ILSVRC2015分类任务竞赛中，由何恺明提出的深度残差网络ResNet首次超越人类水平，斩获竞赛第一名的同时并拿到2016年CVPR最佳论文。

一、提出ResNet原因

网络是不是越深越好？直到把计算机的性能榨干为止。而在实验中可以发现，随着网络加深，训练集的错误率反而更高，这种现象被称作为“网络退化”。从下图中可以看出，无论是训练集还是验证集，56层的网络比20层的网络都更差，这是因为在运用链式法则反向传播时，梯度或消失、或爆炸。

在这里插入图片描述

二、深度残差模块

1.数学理论基础

复杂问题简单解决，公式 $F (x) + x$ 在不添加可学习参数的前提下提升了网络性能。极端情况下，权重层（weight layer）已经收敛不再更新任何参数，“网络退化”说明 $F (x)$ 通道向着变坏的方向迭代，而添加的恒等映射（Identity）仅复制上一层的输出特征，一定程度上阻碍了更坏的情况发生。有点类似物理学中的楞次定律，若权重层的网络是不断进化的，恒等映射则同样阻碍更好的情况发生。 $\begin{gathered} \mathbf{y}_{l}=h\left(\mathbf{x}_{l}\right)+\mathcal{F}\left(\mathbf{x}_{l}, \mathcal{W}_{l}\right) \\ \mathbf{x}_{l+1}=f\left(\mathbf{y}_{l}\right) \end{gathered}$
在这里插入图片描述

2.深度网络结构

只要保证 $F (x)$ 和 $x$ 相加时的张量维度保持一致，就可以构造出残差模块block，以卷积神经网络为例，[kernel, stride, padding]=[1×1，1，0]和[3×3，1，1]均不会改变张量维度，可以根据图像尺寸大小适当调整卷积核算子，何恺明在论文中给出了几种经典的构造方式，如：resnet50和resnet101。
在这里插入图片描述

三、Pytorch代码实现

论文代码复现tips：Block模块应保证输入和输出的张量维度一致，即C=256、512、1024、2048，卷积核的运算亦不会改变特征图的尺寸。flatten展开前使用AdaptiveAvgPool2d将特征图尺寸降为[1, 4096, 1, 1]，接fc层就不用考虑维度变换问题。以下代码为resnet50：

import torch
import torch.nn as nn

class Block(nn.Module):
    def __init__(self, in_channels, out_channels):
        super(Block, self).__init__()
        self.conv1 = nn.Conv2d(out_channels, in_channels, 1, 1, 0)
        self.bn1 = nn.BatchNorm2d(in_channels)
        self.conv2 = nn.Conv2d(in_channels, in_channels,  3, 1, 1)
        self.bn2 = nn.BatchNorm2d(in_channels)
        self.conv3 = nn.Conv2d(in_channels, out_channels, 1, 1, 0)
        self.bn3 = nn.BatchNorm2d(out_channels)
        self.relu = nn.ReLU()
        
    def forward(self, input):
        x = input
        f_x = self.bn1(self.conv1(x))
        f_x = self.bn2(self.conv2(f_x))
        f_x = self.bn3(self.conv3(f_x))
        out = self.relu(x + f_x)		#精华
        return out

class Resnet(nn.Module):
    def __init__(self, n_classes=1000, input_channels=3):
        super(Resnet, self).__init__()
        self.conv0 = nn.Conv2d(input_channels, 64, kernel_size=7, stride=2, padding=3)
        self.bn0 = nn.BatchNorm2d(64)
        self.relu0 = nn.ReLU()
        self.conv1 = nn.Conv2d(64, 256, 1, 1, 0)
        self.bn1 = nn.BatchNorm2d(256)
        self.relu1 = nn.ReLU()
        self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
        
        self.layer1 = self._make_layer(64, 256, 3)
        self.layer2 = self._make_layer(128, 512, 4)
        self.layer3 = self._make_layer(256, 1024, 6)
        self.layer4 = self._make_layer(512, 2048, 3)
        
        self.avgpool = nn.AdaptiveAvgPool2d(output_size=1)
        self.flatten = nn.Flatten(start_dim=1, end_dim=-1)
        self.fc = nn.Linear(4096, n_classes)
        
    def _make_layer(self, in_channels, out_channels, num):
        layers = []
        for _ in range(0, num):
            layers.append(Block(in_channels, out_channels))
        layers.append(nn.Sequential(
            nn.Conv2d(out_channels, out_channels*2, 1, 1, 0),
            nn.BatchNorm2d(out_channels*2),
            nn.MaxPool2d(2, 2, 0)))
        return nn.Sequential(*layers)
        
    def forward(self, input):
        x = self.relu0(self.bn0(self.conv0(input)))
        x = self.relu1(self.bn1(self.conv1(x)))
        x = self.maxpool(x)
        x = self.layer1(x)
        x = self.layer2(x)
        x = self.layer3(x)
        x = self.layer4(x)
        x = self.avgpool(x)
        x = self.flatten(x)
        x = self.fc(x)
        return x
    
def main():
    ins = torch.randn(1, 3, 224, 224)
    model = Resnet()
    out = model(ins)
    print('out shape:', out.shape)
    
if __name__ == '__main__':
    main()
"""
out shape: torch.Size([1, 1000])
"""

四、总结

开源框架（Pytorch、PaddlePaddle）都具有Resnet模型的库函数，开发者可以直接调用函数名来训练模型，对于不同场景的任务需求甚至都有预训练好的参数文件。作者在复现代码的过程中，并非一成不变地搬运code，只是保证在每个阶段的输出维度保持一致，对于图像分类任务的精度表现，有待进一步实践验证，越来越想揭开MobileNet和ShffuleNet的面纱。