ResNets译 Deep Residual Learning for Image Recognition译

点击下载论文

摘要:

        越深的神经网络是越难去训练的,我们展示了一种残差学习框架让网络的训练变得更简单,相比之前的网络我们的网络可以更深。我们明确的重新定义了层的概念,用输入层学习残差函数,而不是学习无参考函数。我们提供了广泛的实验案例展示了残差网络是更容易去优化的,并且随着网络深度的增加能获得精度的提升,在ImageNet数据集上,我们评估一个深度达到了152层的残差网络–这个网络的深度是VGG网络的8倍但是仍然比VGG网络有更低的复杂度。在ImageNet测试数据集上,由这些残差网络组成的网络取得了3.57%的误差。使得这个结果在ILSVRC 2015分类任务中取得了第一的成绩,我们也用100和1000层的网络在CIFAR-10上做了分析。
        对于大多数的视觉识别任务,对网络深度的支持是至关重要的,单因为我们对极深网络的支持,我们在COCO物体检测数据集上取得了一个28%的相对提升,深度残差网络是我们在参与ILSVRC&COCO2015比赛中的网络的基础,在这场比赛中,我们在ImageNet检测,ImageNet定位,COCO检测,和COCO分割任务中也赢得了第一名。

1、引言

    深度卷积神经网络已经在图片分类中取得了一系列的突破。深度网络在一个端到端的多层网络中很自然的整合了低/中/高层特征和分类器。通过堆叠层的数量(变的更深)使得特征的’质量’变得更丰富。最近的例子表明:网络的深度是至关重要的,在富有挑战性的ImageNet数据集上取得领先结果的都用了非常深的网络模型,有16-30层深。很多其他重要的视觉识别任务也从非常深的模型中取得很好的结果。
    受深度的重要性的驱动,一个问题出现了:是不是学习比较好的网络就是简单的堆叠更多的层?回答这个问题的一个阻碍是存在著名的梯度消失/爆炸的问题。梯度消失/爆炸从开始就阻碍收敛。然而这个问题在很大程度上已经通过规范初始化层和中间规范化层给解决了,这能使具有几十层的带有反向传播和随机梯度下降的网络易于收敛。
    当更深的网络能开始收敛时,退化问题就暴露出来了:随着网络深度的增加,精度达到饱和(这可能不足为奇)然后快速下降。出乎意料的是,这样的退化并不是过拟合造成的,添加更多的层去拟合深层次的模型会导致更高的训练误差,正如论文[11, 42]所述,经过我们的全面验证,Fig.1(图片1)展示了一个典型的案例。
在这里插入图片描述
Figure 1.是用带有20层和56层的普通网络在CIFAR-10上训练后的结果,左图是训练误差,右图是测试误差,从上可以看出,更深的网络有更高的训练误差和测试误差,在ImageNet上呈现出相似的现象,可以在Fig.4上观察
    退化(训练精度的)表明并不是所有的系统都同样容易优化,让我们思考一个浅的网络结构和一个深的网络结构即添加更多的层到浅的网络上。通过构造更深的模型这存在一个问题:被添加的层是具有特征映射的,其他的层是从已学习的浅的模型中复制过来的。这个构造解算程序的存在表明较深的模型不应比较浅的模型产生更高的训练误差。但是,实验显示在我们现有的解决方法中不能找到一个比构造方法好或者更好的方法(或者不能在有限的时间内找到)。
    在这篇论文中,我们通过介绍一个深度残差学习框架来设法解决退化问题,而不是希望每个小的堆叠层直接拟合一个期望的底层映射,我们明确的让这些层拟合一个残差映射,形式上,将底层映射用 H ( x ) \mathcal H(x) H(x)表示,我们让堆叠的非线性层拟合另一个映射 F ( x ) : = H ( x ) − x \mathcal F(x) :=\mathcal H(x)-x F(x):=H(x)x 。原始的映射改写为 F ( x ) + x \mathcal F(x)+x F(x)+x。我们认为残差映射比原先的映射更容易优化,做个极端假设,如果一个特征映射是最优的,这将更容易将残差置零而不是通过一个非线性层的堆叠拟合一个特征映射。
在这里插入图片描述
                        Figure 2. 残差学习,一个构造块。

    公式 F ( x ) + x \mathcal F(x)+x F(x)+x可以通过带有短接功能(Fig. 2)的前馈神经网络实现。短接是这些:可以跳过一层或者多层。就我们的而言,短接是简单的做个特征映射,而且他们的输出结果是和堆叠层的输出结果相加。(Fig. 2).特征短接既不会增加额外的参数也不会增加计算复杂度。整个网络仍然能够通过带有反向传播的SGD进行端到端的训练,而且很容易用公共的库实现(像Coffe)不用修改解算程序。
    为了展示退化问题和评估我们的模型,我们在ImageNet上做了大量的实验。我们展示如下:1)我们的极深的残差网络是容易优化的,但是与之对立的普通网络(通过简单的堆叠层的网络)随着深度的增加却展现出了更高的训练误差;2)我们的深度残差网络很容易从大幅增加的深度中获得精度的提升,产生的结果大体上要比以前的网络的结果好。
    在CIFAR-10数据集上也表现出了相似的现象,这表明优化困难和我们方法的效果在特定的数据集上也是类似的。我们在这个数据集上展示了100多层的成功的训练模型,探索模型超过了1000层。
    在 ImageNet分类数据集上,我们通过极深的残差网络取得了非常好的效果。在ImageNet上我们的152层残差网络是最深的网络,同时与VGG网络相比我们拥有更低的复杂度。整体上,我们在ImageNet测试数据集上有3.57%的top-5误差,在 ILSVRC 2015分类比赛中取得了第一名。极深的表现在其他识别任务中也拥有极好的泛化表现能力,让我们进一步的在 ILSVRC &COCO 2015 比赛中的ImageNet检测, ImageNet定位,COCO 检测,和 COCO分割中赢得了第一名。这些强有力的证据表明残差学习准则是具有泛化能力的,我们期望它能够应用在视觉和非视觉问题中

2、相关工作

残差表现 在图片识别中,VLAD是一种表现形式,它根据字典中的残差向量进行编码,Fisher Vector可以看做是VLAD的概率版本。他们两个在图片检索和分类中是强有力的浅层的代表。对于向量量化,与编码原始向量相比编码残差向量表现的更有效。
    在低级视觉和计算机图形学上,为了求解偏微分方程,广泛的用多网格方法重构系统作为多尺度的子问题,其中每个子问题是负责解决介于粗和细比例之间的残差解。多网格的一个选择是分层基础预处理[45, 46],这依赖于介于两种比例之间代表着残差向量的变量。在这些[3, 45, 46]研究中表明:这些解算程序的收敛速度比标准的解算程序的更快,却没意识到这是残差解决方法的特性。这些方法表明一个好的重构或者预处理能使优化简化
短接 短接在实践和理论上已经做了很久的研究。一个早期的, 训练多层感知机的练习是从网络的输入到输出添加一个线性层进行连接。在[44, 24]论文中,为了解决梯度消失/爆炸,少部分中间层直接连接到辅助分类器。 [39, 38, 31, 47]论文中提出的将响应层,梯度,传播误差中心化,已经在短接中实现。在[44]论文中,一个‘inception’层是由一个短接分支和少部分的深层分支组成。
     与此同时,”highway网络“用门函数展现了短接功能,这些门依赖于数据并具有参数,与我们的无参的特征短接不同,当一个短接门”关闭“(接近0)时,在highway网络中的层相当于非残差函数。相反,我们的公式总是学习残差函数,我们的特征短接总不关闭,所有的信息总能传递下去,用额外的残差函数去学习。除此之外,highway网络还没有论证随着深度的急速增加从而获得精度的提升(比如超过100层)。

3、深度残差学习

3.1、残差学习

     我们考虑H(x)作为一个底层映射,由几个堆叠的层(不一定是整个网络)拟合,x表示这些层中第一层的输入,如果假设多个非线性层可以渐渐地逼近复杂函数,就相当于假设他们能渐渐地逼近残差函数,例如: H ( x ) − x \mathcal H(x)-x H(x)x(假设输入和输出的维度一样),因此,我们显式的让这些层接近一个残差函数 F ( x ) : = H ( x ) − x \mathcal F(x) :=\mathcal H(x)-x F(x):=H(x)x而不是期望堆叠层接近 H ( x ) \mathcal H(x) H(x).原来的函数因此变成了 F ( x ) + x \mathcal F(x)+x F(x)+x。虽然这两种形式都应该能够渐渐地逼近期望的函数(如假设的那样),但学习的容易程度可能会有所不同。
     这种重新表述的动机是由违反常理现象的退化问题造成的(图. 1左)。正如我们在引言中讨论的那样。如果被添加的层能被构造成特征映射,一个更深模型的训练误差应该不大于比它浅的对应的模型。退化问题表明解算程序可通过多个非线性层逼近特征映射是有困难。用残差学习来重新表述,如果特征映射是最优的,解算程序可能简单的将多个非线性层的权重趋于0从而逼近特征映射。
     实际上,特征映射不太可能是最优的,但是我们的重新表述可能有助于问题的解决, 如果是更接近特征映射而不是零映射,解算程序根据特征映射可能比学习一个新函数更容易找到扰动。我们在图片7上的实验表明学习残差函数通常有小的响应,表明特征映射提供了合理的预处理。

3.2、短接的特征映射

     我们让每个小的堆叠层都采用残差学习,在图片2中显示了一个构造块。形式上,在这片论文中,我们把一个构造块定义为 y = F ( x , { W i } ) + x ( 1 ) y =\mathcal F(x, \{ W_i\})+x \quad\quad\quad\quad\quad\quad(1) y=F(x,{Wi})+x(1)在这里x和y是层的输入和输出向量,函数 F ( x , { w i } ) \mathcal F(x, \{ w_i\}) F(x,{wi})代表要学习的残差映射。在图片2的例子中有两个层, F = W 2 σ ( W 1 x ) \mathcal F=W_2\sigma(W_1x) F=W2σ(W1x)中的 σ \sigma σ是ReLU激活函数,为了简化省略了偏差, F + x \mathcal F+x F+x操作是通过短接和对应元素相加执行的,我们在相加后采用了第二个非线性操作(例如: σ ( y ) \sigma(y) σ(y)看图片2)。
     在方程式1中介绍的短接既没有额外的参数也没有增加计算复杂度。这不仅在实践中很诱人,而且在残差网络和与之对应的普通网络之间的对比时也很重要。我们能公平的对比同时具有相同数量的参数,深度,宽度,计算代价(除了可忽略的元素相加)的普通网络和残差网络。
     在方程式1中的 x x x F \mathcal F F的维度必须相等。如果不相等(例如:当改变输入/输出的通道时),我们可以通过短接做一个线性投影 W s W_s Ws去匹配维度: y = F ( x , { W i } ) + W s x ( 2 ) y =\mathcal F(x,\{W_i\})+W_sx \quad\quad\quad\quad\quad\quad(2) y=F(x,{Wi})+Wsx(2)我们也可以在方程式1中使用一个方阵 W s W_s Ws。但是我们将通过实验展示特征映射是足够的去解决退化问题,而且是经济的,只有当需要匹配维度的时候才会用 W s W_s Ws
     残差函数 F \mathcal F F的形式是灵活的。在本论文中的实验涉及有两个或者三个层(图片5)的 F \mathcal F F函数,然而更多层也是可能的。但是如果 F \mathcal F F只有一个层,方程式1等同于一个线性层 y = W 1 x + x y = W_1x+x y=W1x+x我们没有观察到这方面的优势。
     我们也声明一下,尽管上边的注释是全连接层,但是为了简化,他们应用了卷积层。 F ( x , { W i } ) \mathcal F(x,\{W_i\}) F(x,{Wi})函数等价于多个卷积层。对应元素相加是在两个特征映射上按逐个通道执行的。

3.3、网络架构

在这里插入图片描述
Figure 3.基于ImageNet的网路架构案例, 左边:VGG-19模型(195亿浮点计算量)作为参考,中间:一个拥有34层参数的普通网络(36亿的浮点计算量), 右边一个拥有34层参数的残差网络(36亿的浮点计算量)。虚线短接用于增加维度。表一展示了更多的细节和其他的变种。

    我们已经测试过很多普通/残差网络,观察到一个一致现象。举一些例子讨论,我们做了两个模型在ImageNet上,如下:
普通网络 我们的普通网络的基本架构(图片3. 中间)主要是受VGG网络(图片3. 左边)的理念启发的。卷积层主要有3x3的过滤器且服从两个简单的设计规则:(i)对于相同的输出特征映射大小,层要有相同数量的过滤器。(ii) 如果特征映射大小减半,过滤器的数量要增加一倍,以保证每个层的时间复杂度。我们是直接通过使用步长为2的卷积层来做下采样,网络最后是一个全局平均池化层和一个用softmax处理的1000维的全连接层。总共有34个权重层在图片3(中间)。
    值得注意的是,我们的网络和VGG网络(图片3. 左)相比拥有更少的过滤器和更低的复杂度。我们的34层有36亿的浮点计算量(乘加),这运算量只是VGG网络(195亿浮点计算量)的18%。
残差网络 基于上边的普通网络,我们插入了短接功能(图片3. 右),这让网络转变成了残差版本。当输入和输出的维度一样时(实线短接在Fig. 3中),公式一中的特征短接能被直接使用。当维度增加(虚线短接在Fig. 3中),我们考虑两个选项:(A)短接仍然表示特征映射,为了增加维度,用额外的0填充,此选项不引用额外参数。(B)在方程式2中的投影短接是为了匹配维度(做了个1x1的卷积)。对于这两个选项,当短接跨越两个尺度的特征映射时,他们的步幅为2。

3.4、实现

    我们在ImageNet上的实现遵从了论文 [21, 41]中的实例,为了使用比例增强,将图片的较短边的尺寸随机缩放到[256, 480]之间,从图片或者他的水平翻转图片中随机裁出一个224x224的图片,减去每个像素的平均值。在论文[21]中使用了标准的颜色增强。在每个卷积之后,激活之前我们采用了批量标准化(BN),遵从了[16]。我们像在[13]论文中的那样初始化权重,并且用爬取的数据训练普通/残差网络,我们用小批量大小为256的SGD。学习率从0.1开始,当误差平稳后将学习率除以10。模型的训练高达 60 × 1 0 4 10^4 104个迭代。我们用了权重为0.0001的权重衰减,动量为0.9。我们没有用dropout,遵循[16]论文中的实例。
    在测试中,为了对比学习,我们采用了标准的10-crop测试。为了获取最好的结果,我们采用了全连接卷积的格式就像在论文[41, 13]中的那样,在多尺度上求平均分(图片的较短边的尺寸被重置在[224, 256, 384, 480, 640])。

4、实验

4.1 ImageNet 分类

在这里插入图片描述
Table 1 ImageNet的结构。在括号中展示了用多个块堆叠而成的构造块。下采样是用一个步长为2的conv3 1, conv4 1, and conv5 1构造块做的。
在这里插入图片描述
Figure 4 在ImageNet上训练。在中心裁切上,细线表示训练误差,粗线表示验证误差。左: 18和34层的普通网络。右: 18和34层的残差网络。在这个图上,和普通网络相比,残差网络没有额外的参数。
在这里插入图片描述
Table 2 在ImageNet 验证集上的Top-1误差(%, 10-crop 测试)。在这里,残差网络和与之对应的普通网络相比并没有额外的参数。Fig. 4展示了训练过程

    我们评估我们的方法在ImageNet 2012分类数据集上,这个数据集包含了1000个类别。模型是在128万张图片上训练的,评估是在50万张验证图片上做的,我们也在100万张测试图片上获得了最终结果,报告出自测试结果。我们评估了Top-1和Top-5的误差比例。
普通网络 我们首先评估18层和34层普通网络,34层的普通网络是在Fig.3(中间)。18层的普通网络和34层具有相似的结果。更详细的结构看表1。
    在表2中的结果显示:34层的普通网络比18层的普通网络具有更高的验证误差。为了揭露产生上述情况的原因。在FIg.4(左),在训练的过程中,我们对比了他们的训练/验证误差。我们观察到了退化问题–34层网络在整个训练过程中有更高的训练误差。尽管18层普通网络的解空间是34层普通网络解空间的一个子空间。
    我们认为这个优化困难不像是由梯度消失造成的。这些普通网络是使用批量正则化(BN)进行训练的,这让前向传播信号有了非零方差,我们也验证了反向传播梯度用BN后表现的很正常。因此,既不是前向传播信号也不是反向传播信号导致的梯度消失。事实上,34层普通网络仍然能够达到具有可竞争性的精度(Table 3)。这表明解算程序在一定程度上是有效地。我们推测深的普通网络可能具有指数级的低收敛速度,这导致了训练误差的降低,在未来将会研究是什么原因导致了这些优化困难。
残差网络 接下来我们评估18层和34层的残差网络(简写:ResNets).基本架构和上边的普通网络是一样的。期望一个短接是被添加到每对3x3过滤器上,如图 Fig. 3(right)。在第一次对比中(Table 2和Fig. 4右),所有的短接我们用特征映射,用0填充增加维度(选项A)。因此他们和普通网络相比没有额外的参数。
    我们从表2和图4中得到了三个主要观察结果,第一个:情况是相反的(与普通网络相比),用34层的残差网络进行残差学习比18层的残差网络学的更好(高了2.8%)。更重要的是,34层残差网络展现了更低的训练误差,对验证数据有泛化能力。这表明通过这样设置,退化问题被很好地解决了并且随着深度的增加我们获得了精度的提升。
    第二,与相对应的普通网络相比,34层残差网络的top-1误差减少了3.5%(Table 2),由于成功的减少了训练误差(Fig. 4 右vs .左),这个对比验证了残差学习在极深网络中的效果。
     最后,我们也注意到18层普通网络/残差网络的精度已经相当高了(Table2),但是18层的残差网络收敛的更快 (Fig. 4 右 vs. 左)。当网络”不是非常深“(这里是18层),对于普通的网络来说,当前的SGD解算程序仍然能找到很好的解决方法。在这种情况下,残差网络在早期阶段通过提供更快的收敛来简化优化。
在这里插入图片描述
Table 3 在ImageNet验证集上的错误率(%, 10-crop 测试)。VGG16是基于我们的测试。ResNet-50/101/152是B选项,这些网络为了增加维度只用了投影。
在这里插入图片描述
Table 4 在ImageNet验证集上单模型结果的错误率(%)(除了 ∤ ^\nmid 在测试集上的报告)
在这里插入图片描述
Table 5 全部的错误率(%)。在ImageNet测试集上的top-5误差,在测试服务器上的获取的报告
在这里插入图片描述
Figure 5 作用在ImageNet上的一个更深的残差函数 F \mathcal F F左: ResNet-34的一个构造块(56x56的特征映射)在 Fig. 3上。右: ResNet-50/101/152的一个‘瓶颈’构造块。

特征 vs 投影短接 我们已经展示了无参,特征短接有助于训练。接下来我们研究投影短接(方程式2)。在Table 3我们比较了3个选项:(A) 0填充短接是为了增加维度并且所有的短接是无参的(与Table 2 和 Fig. 4 右一样);(B)投影短接是为了增加维度,其他的是特征短接;(C)所有都是投影短接。
    与普通的网络相比Table 3中显示的三个选项更好。B比A稍好。我们认为这是因为在A中0填充维度确实没有残差学习。C略好于B,我们将这些归因于大量的投影短接引入了额外的参数。但是, A/B/C之间的小的差异表明投影短接不能从根本上解决退化问题。因此在本篇论文的其他部分我们不用C选项,为了减小记忆/时间复杂度和模型大小。为了不增加瓶颈架构的复杂度,特征短接的使用是非常重要的,接下来将介绍瓶颈架构。
更深的瓶颈架构 接下来我们将在ImageNet上介绍我们更深的网络。由于担心训练时间–我们得能负担得起。我们将构造块修改为瓶颈。对于每一个残差函数 F \mathcal F F,我们用一个3层的堆叠块取代2层的(Fig. 5),三个层分别是1x1, 3x3, 和1x1卷积,其中1x1卷积是负责减少和增加(恢复)维度,使3×3层成为输入/输出维度更小的瓶颈。 Fig. 5展示了一个例子,两种设计有相似的时间复杂度。
    对于瓶颈架构,无参的特征短接是尤为重要的,如果在Fig. 5(右)中的特征短接被投影取代,时间复杂度和模型大小将翻倍。因为短接连接到了两个高维端,因此对于瓶颈设计,特征短接能使模型更有效。
    50层的残差网络:我们在34层网络中用3层瓶颈块取代2层块,50层残差网络的结果(Table 1)。为了增加维度,我们用B选项。这个模型有38亿的浮点计算量。
     101层和152层的残差网络: 我们通过用更多的3层块(Table 1)构造了101层和152层残差网络。值得注意的是,虽然深度有了显著的增加但是152层的残差网络(113亿的浮点计算了)与VGG-16/19网络(153/196亿浮点计算量)相比仍然有更低的复杂度。
     50/101/152层的残差网络与34层的相比仍然以相当大的优势(Table 3 和 4)获得比较高的精度。我们没有观察到退化问题而且随着深度的急速增加,精度取得了重大提升。所有的评方式都见证了深度的好处(Table 3 和 4)
与最新的方法比较 在Table 4中我们展示了和以前的最好的单模型对比的结果。我们基于34层残差网络达到了很具竞争力的精度。我们的152层残差网络有一个单模型top-5 4.49%的验证误差。这个单模型的结果胜过了以前所有的结果(Table 5),我们将6个不同深度的模型组成一个整体(提交时只有两个152层)。这导致了在测试集上有3.57%top-5误差。这次参加 ILSVRC 2015比赛取得了第一名。

4.2、CIFAR-10及其分析

我们在CIFAR-10数据集上做了更多的研究,它有10个类别,5万张训练图片,1万张测试图片,我们在训练集上训练,在测试集上评估。我们重点放在了极深网络的效果,但是没有追求最好的结果,因此我们有意的用简单的架构,如下。
     普通/残差网络遵循以下形式 Fig. 3(中/右),网络输入是32x32的图片, 减去每个像素的平均值。第一层是3x3卷积层。然后我们分别用大小为 {32, 16, 8}的特征映射用带有3x3的卷积层的6n层堆叠,每个特征映射大小为2n层,过滤器的数量分别是 {16, 32, 64}。子采样用步长为2的卷积执行。网络的最后用一个全局平均池化层,一个10维的全连接层,和softmax,总共有6n+2堆叠加权层。下表对架构做了概括:
在这里插入图片描述
当短接被使用,它们是被连接到3x3层对上(总共3n个短接)。在这个数据集上,我们在各种情况上都用了特征短接(例如选项A)。所以我们的残差模型与对应的普通网络有相同的,深度,宽度,和参数量。
     我们用一个0.0001的权重衰减,和0.9的动量,采用权重初始化和批量正则化但是没有dropout。这些模型在两个GPU上以128个小批量进行训练,我们开始时用0.1的学习率,在3.2万次和4.8万次迭代后分别除以10,在6.4万次迭代后终止,这取决于4.5万/5千的训练/验证数据分割。我们在训练的时候遵循[24]做了简单的数据增强:每侧填充四像素并且从填充图或者水平翻转图中随机裁切一个32x32的图片。在测试时,我们只对32x32的原始图做评估。
     我们比较了当n取{3, 5, 7, 9}时的20、32、44和56层网络。Fig. 6 (左)显示了普通网络的训练过程。深的普通网络随着深度的增加展现出了更高的错误率。这种现象与在ImageNet(Fig. 4, 左)和 MNIST(看[42])上相似,表明这种优化困难是一个基础问题。
     Fig. 6 (中)展示了残差网络的训练过程,同样的和ImageNet情况类似(Fig. 4, 右),随着深度的增加我们的残差网络尝试克服优化困难并且获得了精度的增加。
     我们探索了n=18时的110层的残差网络。在这种情况下,我们发现0.1的初始学习率是稍微有点大而不易于收敛。因此我们用0.01作为热身训练,直到训练误差低于80%(大约400轮迭代),然后再设置为0.1,继续训练,接下来的训练调度和之前的一样。这个110层的网络收敛的非常好(Fig. 6,中间)。和其他深的和瘦的网络相比它有更少的参数,例如:FitNet网络[35] 和 Highway网络[42] (Table 6),至今是最好的结果之一 (6.43%, Table 6)。
在这里插入图片描述 Table 6 在CIFAR-10测试数据集上的分类误差。所有的方法都用了数据增强。对于ResNet-110网络,我们运行了5次,展示的为”最好的(均值 ± \pm ±方差)“和[43]一样
在这里插入图片描述
Figure 6 在CIFAR-10上的训练过程,点线表示训练误差,粗实线表示测试误差。 普通网络。110层的普通网络的错误高达60%所以没有展示。 中间 残差网络。 110层和1202层的残差网络。
在这里插入图片描述
Figure 7 CIFAR-10上各层相应输出的标准差,每个3x3层的输出响应是在BN后,在非线性层前, 上: 层是按原始顺序显示。 下: 响应是按照降序排序。

响应层分析 Fig. 7显示了响应层的标准差。每个3x3的层的输出响应是在BN之后,在非线性层(ReLU/激活函数)之前,对于残差网络,该分析揭示了残差函数的响应强度。Fig. 7显示,残差网络与与之对应的普通网络相比,通常有更小的响应。这些结果支持了我们的基本想法 (3.1部分),残差函数可能更接近于0而不是非残差函数。我们同样注意到越深的残差网络响应的幅度越小,正如在 Fig. 7中的ResNet-20, 56, and 110的对比。当有更多的层时,一个单独的残差层试图更小的修改信号。
超过一千层的探索 我们探索一个超过一千层的巨深的网络。我们设置n=200然后变成了1202层的网络,这个网络是被训练,正如上边描述的那样。我们的方法显示了没有优化的困难并且这个 1 0 3 10^3 103层的网络能让训练误差小于0.1% (Fig. 6, 右)。它的测试误差仍然是相当好的(7.93%, Table 6)。
     但是在巨深的网络上仍然存在一个公开的问题。这个1202层网络的测试结果比我们的110层网络的测试结果更差。尽管两个网络都有相似的训练误差。我们认为这是因为过拟合了。对于这个小的数据集,1202层的网络可能没必要这么大。在这个数据集上为了获得最好的结果,强正则化是被应用了像maxout和dropout,在本篇论文中,我们没有用maxout/dropout并且按照设计只简单地通过深的和薄的架构实施正则化。不分散对优化困难的关注,但是结合强正则化可能提升结果,这将在未来研究。
在这里插入图片描述
Table 7 在 PASCAL VOC 2007/2012测试集上基于Faster R-CNN的物体检测的mAP (%),对于更好的结果看表10和11。
在这里插入图片描述
Table 8 在COCO验证集上基于Faster R-CNN的物体检测的mAP (%),对于更好的结果看表9.

4.3、在PASCAL 和 MS COCO数据集上的目标检测

    我们的方法在其他识别任务中也有很好地泛化能力。表7和表8展示了在 PASCAL VOC 2007/2012和 COCO数据集上的物体检测基本结果。我们采用 Faster R-CNN作为检测方法。这里我们对用ResNet-101取代VGG-16所带来的提高感兴趣。两个模型的检测实现(看附录)是一样的,因此结果的好坏只能依赖于网络好快。最重要的是,在具有挑战性的CoCo数据集上,我们使用CoCo的标准度量 (mAP@[.5,.95])最终获得了6.0%的提升,这是一个28%的相对提升。 这种增益完全是由于学习到了特征。
    基于深度残差网络,我们在 ILSVRC & COCO 2015比赛中赢得了第一名,比赛内容包括:ImageNet检测,ImageNet定位,CoCo检测,CoCo分割。更详细的看附录

引用的文献如下:
[1] Y. Bengio, P. Simard, and P. Frasconi. Learning long-term dependencies with gradient descent is difficult. IEEE Transactions on Neural
Networks, 5(2):157–166, 1994.
[2] C. M. Bishop. Neural networks for pattern recognition. Oxford
university press, 1995.
[3] W. L. Briggs, S. F. McCormick, et al. A Multigrid Tutorial. Siam,
2000.
[4] K. Chatfield, V. Lempitsky, A. Vedaldi, and A. Zisserman. The devil
is in the details: an evaluation of recent feature encoding methods.
In BMVC, 2011.
[5] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, and A. Zisserman. The Pascal Visual Object Classes (VOC) Challenge. IJCV,
pages 303–338, 2010.
[6] S. Gidaris and N. Komodakis. Object detection via a multi-region &
semantic segmentation-aware cnn model. In ICCV, 2015.
[7] R. Girshick. Fast R-CNN. In ICCV, 2015.
[8] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In
CVPR, 2014.
[9] X. Glorot and Y. Bengio. Understanding the difficulty of training
deep feedforward neural networks. In AISTATS, 2010.
[10] I. J. Goodfellow, D. Warde-Farley, M. Mirza, A. Courville, and
Y. Bengio. Maxout networks. arXiv:1302.4389, 2013.
[11] K. He and J. Sun. Convolutional neural networks at constrained time
cost. In CVPR, 2015.
[12] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep
convolutional networks for visual recognition. In ECCV, 2014.
[13] K. He, X. Zhang, S. Ren, and J. Sun. Delving deep into rectifiers:
Surpassing human-level performance on imagenet classification. In
ICCV, 2015.
[14] G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and
R. R. Salakhutdinov. Improving neural networks by preventing coadaptation of feature detectors. arXiv:1207.0580, 2012.
[15] S. Hochreiter and J. Schmidhuber. Long short-term memory. Neural
computation, 9(8):1735–1780, 1997.
[16] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep
network training by reducing internal covariate shift. In ICML, 2015.
[17] H. Jegou, M. Douze, and C. Schmid. Product quantization for nearest
neighbor search. TPAMI, 33, 2011.
[18] H. Jegou, F. Perronnin, M. Douze, J. Sanchez, P. Perez, and
C. Schmid. Aggregating local image descriptors into compact codes.
TPAMI, 2012.
[19] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick,
S. Guadarrama, and T. Darrell. Caffe: Convolutional architecture for
fast feature embedding. arXiv:1408.5093, 2014.
[20] A. Krizhevsky. Learning multiple layers of features from tiny images. Tech Report, 2009.
[21] A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classification
with deep convolutional neural networks. In NIPS, 2012.
[22] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard,
W. Hubbard, and L. D. Jackel. Backpropagation applied to handwritten zip code recognition. Neural computation, 1989.
[23] Y. LeCun, L. Bottou, G. B. Orr, and K.-R. Muller. Efficient backprop. ¨
In Neural Networks: Tricks of the Trade, pages 9–50. Springer, 1998.
[24] C.-Y. Lee, S. Xie, P. Gallagher, Z. Zhang, and Z. Tu. Deeplysupervised nets. arXiv:1409.5185, 2014.
[25] M. Lin, Q. Chen, and S. Yan. Network in network. arXiv:1312.4400,
2013.
[26] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan,
P. Dollar, and C. L. Zitnick. Microsoft COCO: Common objects in ´
context. In ECCV. 2014.
[27] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks
for semantic segmentation. In CVPR, 2015.
[28] G. Montufar, R. Pascanu, K. Cho, and Y. Bengio. On the number of ´
linear regions of deep neural networks. In NIPS, 2014.
[29] V. Nair and G. E. Hinton. Rectified linear units improve restricted
boltzmann machines. In ICML, 2010.
[30] F. Perronnin and C. Dance. Fisher kernels on visual vocabularies for
image categorization. In CVPR, 2007.
[31] T. Raiko, H. Valpola, and Y. LeCun. Deep learning made easier by
linear transformations in perceptrons. In AISTATS, 2012.
[32] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards
real-time object detection with region proposal networks. In NIPS,
2015.
[33] S. Ren, K. He, R. Girshick, X. Zhang, and J. Sun. Object detection
networks on convolutional feature maps. arXiv:1504.06066, 2015.
[34] B. D. Ripley. Pattern recognition and neural networks. Cambridge
university press, 1996.
[35] A. Romero, N. Ballas, S. E. Kahou, A. Chassang, C. Gatta, and
Y. Bengio. Fitnets: Hints for thin deep nets. In ICLR, 2015.
[36] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma,
Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, et al. Imagenet
large scale visual recognition challenge. arXiv:1409.0575, 2014.
[37] A. M. Saxe, J. L. McClelland, and S. Ganguli. Exact solutions to
the nonlinear dynamics of learning in deep linear neural networks.
arXiv:1312.6120, 2013.
[38] N. N. Schraudolph. Accelerated gradient descent by factor-centering
decomposition. Technical report, 1998.
[39] N. N. Schraudolph. Centering neural network gradient factors. In
Neural Networks: Tricks of the Trade, pages 207–226. Springer,
1998.
[40] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. Overfeat: Integrated recognition, localization and detection
using convolutional networks. In ICLR, 2014.
[41] K. Simonyan and A. Zisserman. Very deep convolutional networks
for large-scale image recognition. In ICLR, 2015.
[42] R. K. Srivastava, K. Greff, and J. Schmidhuber. Highway networks.
arXiv:1505.00387, 2015.
[43] R. K. Srivastava, K. Greff, and J. Schmidhuber. Training very deep
networks. 1507.06228, 2015.
[44] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In CVPR, 2015.
[45] R. Szeliski. Fast surface interpolation using hierarchical basis functions. TPAMI, 1990.
[46] R. Szeliski. Locally adapted hierarchical basis preconditioning. In
SIGGRAPH, 2006.
[47] T. Vatanen, T. Raiko, H. Valpola, and Y. LeCun. Pushing stochastic gradient towards second-order methods–backpropagation learning with transformations in nonlinearities. In Neural Information
Processing, 2013.
[48] A. Vedaldi and B. Fulkerson. VLFeat: An open and portable library
of computer vision algorithms, 2008.
[49] W. Venables and B. Ripley. Modern applied statistics with s-plus.
1999.
[50] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional neural networks. In ECCV, 2014.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值