ResNet(Deep Residual Learning for Image Recognition)论文总结

最新推荐文章于 2024-07-17 20:41:09 发布

Ccendoc

最新推荐文章于 2024-07-17 20:41:09 发布

阅读量623

点赞数

分类专栏： CV论文文章标签：深度学习人工智能计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Ccendoc/article/details/128206048

版权

CV论文专栏收录该内容

4 篇文章

订阅专栏

摘要：

深度神经网络难以训练，本文提出了残差学习框架。综合性经验证据表明，残差网络更容易优化，并且可以在非常深的网络中获得准确率。网络的深度对很多视觉识别任务非常重要。

引言：

卷积神经网络的的深度对图像识别和分类等任务很重要。

提出问题：简单地堆叠更多层会使神经网络学习的更好么？

深度太深会导致梯度消失和梯度爆炸，会从一开始就阻碍了收敛，然而归一初始化和中间的初始化层解决了这个问题，使具有几十层的网络开始收敛于反向传播的随机梯度下降(SGD)。
当深层的网络可以收敛，网络会出现退化问题(degradation problem)：随着网络深度的增加，准确率达到饱和然后迅速下降。这种下降不是由过拟合引起的，并且在适当的深度模型上添加更多的层会导致更高的训练误差。如图

考虑一个构建深层模型的方法：
假设我们训练了一个浅层网络，那么在其后面直接添加多层恒等映射层（本身）而构成的一个深层网络，那这个深层网络最起码也应该不会比对应的浅层网络差。我们这样做了以后，起码我们加深模型至少不会使得模型变得更差，这样我们就可以加深我们的深度。但是实验表明现在还达不到这种效果。

在过去的网络结构中，我们会去拟合我们的期望的底层映射H ( x ) ，但我们拟合残差F ( x ) = H ( x ) − x，这样我们最后得到的期望映射是F ( x ) + x 。我们假设残差的映射比原来的更容易优化，比如在极端情况下，如果一个恒等映射是最优的，那么将残差置为零比通过一堆非线性层来拟合恒等映射更容易。

我们在ImageNet上进行了综合实验来表明退化问题，并评估了我们的方法：
(1)解决了退化问题、易于优化
(2)可以构建很深的网络，并且准确率与以前的网络相比大大提升

深层残差学习：

1.残差学习

如果增加的层可以构造成一个相当于恒等映射的层，那么训练的错误率不会高于原来的浅层网络，而退化问题的出现恰恰表明，多个非线性层是难以近似恒等映射的，因此提出了残差学习。

残差学习的优点：
(1)多层非线性函数很难渐近相等映射，残差网络只需将非线性层的权重设为零便可以实现。
(2)真实例子中相等映射是最优函数几乎是不可能的，若最优函数与相等映射相近，残差网络可以更容易地找到扰动。残差网络中的相等映射提供了合理的预处理。

2.相等映射连接

y = F(x, {Wi}) + x.

连接方式没有增加额外的参数和计算复杂度，注：
(1)x和F(x)的维度必须相同，如果不同可以对x增加一个线性运算来保持维度相同
(2)残差块至少有两层，若只有一层，相当于线性运算，没有优势
(3)同样适用于卷积层

3.残差网络架构

原网络：

从VGG的启发出发，我们构建一个简单的卷积神经网络，两个规则设计出我们的残差网络(图3中图)：
(1)对于相同的输出特征图尺寸，每层具有相同数量的滤波器
(2)如果特征图尺寸减半，则滤波器数量加倍，以便保持每层的时间复杂度。

我们通过步长为2的卷积层直接执行缩减像素采样。最后的网络会以全局平均池化层和具有softmax的1000维全连接层结束。此网络和VGG网络相比具有更少的过滤器和更低的复杂度。

残差网络：

虚线表示要增加维度，有两种方法：
(1)快捷连接仍然执行恒等映射，额外填充零输入以增加维度。此方法不会引入额外的参数
(2)用1x1的卷积核进行维度增加

实验：

基础网络的比较：34层的原网络性能没有18层的原网络好，但这不是由向前传播和向后传播的梯度消失引起的，推测深层的原网络可能具有指数级的低收敛率。

残差网络的比较：在第一次比较中（表2和图4右），我们使用恒等映射连接，对增加维度使用零填充（A方案）。所以与原基础网络相比，没有增加额外的参数。

34层的残差网络与18层的残差网络相比，具有相当低的训练错误率和验证错误率。表示退化问题已经被很好地解决，可以使用更深的网络获得更好的准确率。

34层的残差网络和相应的基础网络相比，验证了残差学习在极深网络结构上的有效性。

ResNet网络收敛速度更快。当网络“不太深”（这里有18层）时，当前的SGD仍然能够找到对普通网络更好的优化方案。在这种情况下，ResNet通过在早期阶段提供更快的收敛速度来简化优化。

在表3中，我们比较了三个选项：
(A)零填充短路连接用于增加维度，所有连接都是无参数的（与表2和图4相同）
(B)1*1卷积用于增加维度，其他连接是相等映射
(C)所有的连接都是1*1卷积。

可以看出，1*1卷积增加维度残差学习可以降低错误率，但是效果甚微，对解决退化问题是不必要的，相等映射连接不增加复杂度，可以很好地解决退化问题。

出于实际地训练时间和成本，构造更深的网络采用瓶颈结构。采用1*1卷积先降维再升维。使3×3卷积层成为较小输入/输出尺寸的瓶颈。瓶颈结构与非瓶颈结构具有相同的时间复杂度。

相等映射连接对瓶颈结构的设计具有重要意义。短路连接两个高维时，1*1残差连接的时间复杂度与是相等映射连接的两倍。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。