【卷积神经网络】ResNets 残差网络

洋洋Young

已于 2023-10-14 17:52:31 修改

阅读量371

点赞数 1

分类专栏：【卷积神经网络】文章标签： cnn 人工智能神经网络

于 2023-09-20 08:00:00 首次发布

本文链接：https://blog.csdn.net/Sxyang2018/article/details/132957009

版权

【卷积神经网络】专栏收录该内容

5 篇文章 0 订阅

订阅专栏

通常来说，增加卷积神经网络的层数有利于提高模型的准确率，但是深层的神经网络也变得难以训练的，因为存在梯度消失与梯度爆炸问题。Microsoft 亚洲研究院的 Kaiming He 等人提出了一个残差学习框架，以简化对 CNN 网络的训练。通过将层重新表述为参考层输入的学习残差函数，深层神经网络变得更容易优化，并且可以从显著增加网络的准确性。本文主要介绍 ResNet 残差网络的基本结构（Residual block）及其工作原理。

1 深层网络的瓶颈

2 残差块与残差网络

1 深层网络的瓶颈

在 ImageNet 挑战赛中，排名靠前的团队都使用深度较深的模型，一般是深度在 16 到 30 层之间的神经网络。通过叠加多个网络层，神经网络能够更容易地提取出丰富的分类特征，从而提高分类准确性。

但随之而来的问题是，简单地增加网络层数，就能获得学习效果更好的模型吗？前面提到的梯度消失与梯度爆炸问题是一个阻碍。实际上，神经网络的学习误差，一开始会随着网络层数的增加而减少，但是当层数增大到一定数量时，学习误差反而会增加，这种问题被称为退化（Degradation problem）。

下图展现了 20 层模型与 56 层模型的训练误差，和测试误差随迭代次数的变化情况，图片来源《Deep Residual Learning for Image Recognition》论文。

2 残差块与残差网络

在《Deep Residual Learning for Image Recognition》论文中，Kaiming He 等人通过引入深度残差学习框架来解决退化问题。

残差网络使用了被称为残差块的基本结构，如下图所示。

在残差块中，输入 x 除了沿着主分支（即经过两层线性加权与非线性激活）传播之外，还沿着一条捷径进行传播，作为第二层非线性激活的输入，这条捷径被称为 “Shortcur connection”。

假设神经网络需要学习的函数为 H(x) = x，对于不存在捷径的网络，神经网络需要学习 F(x) = H(x) = x 这个函数，当神经网络的层数增加时，优化算法训练模型的复杂度会增加。

而引入 Shortcut connection 之后，模型学习的函数变为 F(x) = H(x) - x = 0，这只需要让 weight layer 的权重为 0 即可实现，这说明残差网络更擅长学习 H(x) = x 恒等映射。当神经网络的层数增加时，Shortcut connection 的引入不会增额外的训练参数，也不会增加训练的复杂度，可以有效解决前面提到的退化问题。

残差网络（Residual Networks）使用了多个堆叠的残差块，在《Deep Residual Learning for Image Recognition》论文中，Kaiming He 等人对比了使用与未使用残差结构网络的表现，网络结构如下图所示。

当残差块的输入与输出具有相同维度时，x 可以直接加到 F(x) 之上；当输出维度增加时，可以使用 0 值填充多出来的维度，也可以使用 1x1 卷积（上图中用虚线连接表示）。

在 ImageNet 训练集上，ResNet-34 实现了比 ResNet-18 更低的误差。

【参考文献】

[1] Kaiming He, Xiangyu Zhang, Xiangyu Zhang, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.