摘要:
深度神经网络难以训练,本文提出了残差学习框架。综合性经验证据表明,残差网络更容易优化,并且可以在非常深的网络中获得准确率。网络的深度对很多视觉识别任务非常重要。
引言:
卷积神经网络的的深度对图像识别和分类等任务很重要。
提出问题:简单地堆叠更多层会使神经网络学习的更好么?
- 深度太深会导致梯度消失和梯度爆炸,会从一开始就阻碍了收敛,然而归一初始化和中间的初始化层解决了这个问题,使具有几十层的网络开始收敛于反向传播的随机梯度下降(SGD)。
-
当深层的网络可以收敛,网络会出现退化问题(degradation problem):随着网络深度的增加,准确率达到饱和然后迅速下降。这种下降不是由过拟合引起的,并且在适当的深度模型上添加更多的层会导致更高的训练误差。如图
考虑一个构建深层模型的方法:
假设我们训练了一个浅层网络,那么在其后面直接添加多层恒等映射层(本身)而构成的一个深层网络,那这个深层网络最起码也应该不会比对应的浅层网络差。我们这样做了以后,起码我们加深模型至少不会使得模型变得更差,这样我们就可以加深我们的深度。但是实验表明现在还达不到这种效果。
在过去的网络结构中,我们会去拟合我们的期望的底层映射H ( x ) ,但我们拟合残差F ( x ) = H ( x ) − x,这样我们最后得到的期望映射是F ( x ) + x 。我们假设残差的映射比原来的更容易优化,比如在极端情况下,如果一个恒等映射是最优的,那么将残差置为零比通过一堆非线性层来拟合恒等映射更容易。
我们在ImageNet上进行了综合实验来表明退化问题,并评估了我们的方法:
(1)解决了退化问题、易于优化
(2)可以构建很深的网络,并且准确率与以前的网络相比大大提升
深层残差学习:
1.残差学习
如果增加的层可以构造成一个相当于恒等映射的层,那么训练的错误率不会高于原来的浅层网络,而退化问题的出现恰恰表明,多个非线性层是难以近似恒等映射的,因此提出了残差学习。
残差学习的优点:
(1)多层非线性函数很难渐近相等映射,残差网络只需将非线性层的权重设为零便可以实现。
(2)真实例子中相等映射是最优函数几乎是不可能的,若最优函数与相等映射相近,残差网络可以更容易地找到扰动。残差网络中的相等映射提供了合理的预处理。
2.相等映射连接
y = F(x, {Wi}) + x.
连接方式没有增加额外的参数和计算复杂度,注:
(1)x和F(x)的维度必须相同,如果不同可以对x增加一个线性运算来保持维度相同
(2)残差块至少有两层,若只有一层,相当于线性运算,没有优势
(3)同样适用于卷积层
3.残差网络架构
原网络:
从VGG的启发出发,我们构建一个简单的卷积神经网络,两个规则设计出我们的残差网络(图3中图):
(1)对于相同的输出特征图尺寸,每层具有相同数量的滤波器
(2)如果特征图尺寸减半,则滤波器数量加倍,以便保持每层的时间复杂度。
我们通过步长为2的卷积层直接执行缩减像素采样。最后的网络会以全局平均池化层和具有softmax的1000维全连接层结束。此网络和VGG网络相比具有更少的过滤器和更低的复杂度。
残差网络:
虚线表示要增加维度,有两种方法:
(1)快捷连接仍然执行恒等映射,额外填充零输入以增加维度。此方法不会引入额外的参数
(2)用1x1的卷积核进行维度增加
实验:
基础网络的比较:34层的原网络性能没有18层的原网络好,但这不是由向前传播和向后传播的梯度消失引起的,推测深层的原网络可能具有指数级的低收敛率。
残差网络的比较:在第一次比较中(表2和图4右),我们使用恒等映射连接,对增加维度使用零填充(A方案)。所以与原基础网络相比,没有增加额外的参数。
34层的残差网络与18层的残差网络相比,具有相当低的训练错误率和验证错误率。表示退化问题已经被很好地解决,可以使用更深的网络获得更好的准确率。
34层的残差网络和相应的基础网络相比,验证了残差学习在极深网络结构上的有效性。
ResNet网络收敛速度更快。当网络“不太深”(这里有18层)时,当前的SGD仍然能够找到对普通网络更好的优化方案。在这种情况下,ResNet通过在早期阶段提供更快的收敛速度来简化优化。
在表3中,我们比较了三个选项:
(A)零填充短路连接用于增加维度,所有连接都是无参数的(与表2和图4相同)
(B)1*1卷积用于增加维度,其他连接是相等映射
(C)所有的连接都是1*1卷积。
可以看出,1*1卷积增加维度残差学习可以降低错误率,但是效果甚微,对解决退化问题是不必要的,相等映射连接不增加复杂度,可以很好地解决退化问题。
出于实际地训练时间和成本,构造更深的网络采用瓶颈结构。采用1*1卷积先降维再升维。使3×3卷积层成为较小输入/输出尺寸的瓶颈。瓶颈结构与非瓶颈结构具有相同的时间复杂度。
相等映射连接对瓶颈结构的设计具有重要意义。短路连接两个高维时,1*1残差连接的时间复杂度与是相等映射连接的两倍。