【论文翻译】Deep Residual Learning for Image Recognition

用于图像识别的深度残差学习

摘要

越深层次的神经网络越难训练。我们提出了一个残差学习框架,以缓解比以前使用的网络要深得多的网络的训练。我们明确地将各层重新表述为学习参考层输入的残差函数,而不是学习未参考的函数。我们提供了全面的经验证据,表明这些残差网络更容易优化,并能从大大增加的深度中获得准确性。在ImageNet数据集上,我们评估了深度为152层的残差网络,比VGG[41]深8倍,但仍有较低的复杂性。这些残差网络的集合在ImageNet测试集上取得了3.57%的误差。这一结果赢得了ILSVRC 2015分类任务的第一名。我们还介绍了对具有100层和1000层的CIFAR-10的分析。

representations的深度对于许多视觉识别任务来说是至关重要的。仅仅由于我们极深的representations ,我们在COCO物体检测数据集上获得了28%的相对改进。深度残差网络是我们提交给ILSVRC和COCO 2015比赛的基础,在那里我们还赢得了ImageNet检测、ImageNet定位、COCO检测和COCO分割等任务的第一名。

1. 引言

深度卷积神经网络[22, 21]已经为图像分类带来了一系列的突破[21, 50, 40]。深度网络自然地将低/中/高层次的特征[50]和分类器以端到端的多层方式整合在一起,而且特征的 "层次 "可以通过堆叠层的数量(深度)来充实。最近的证据[41, 44]显示,网络深度是至关重要的,在具有挑战性的ImageNet数据集[36]上的领先结果[41, 44, 13, 16]都利用了 “非常深”[41]的模型,其深度为16[41]到30[16]。许多其他非琐碎的视觉识别任务[8, 12, 7, 32, 27]也大大受益于非常深的模型。

在深度意义的驱动下,出现了一个问题。学习更好的网络是否就像堆叠更多的层一样容易?回答这个问题的一个障碍是臭名昭著的梯度消失/爆炸问题[1, 9],它从一开始就阻碍了收敛。然而,这个问题在很大程度上已经被归一化初始化[23, 9, 37, 13]和中间归一化层[16]所解决,这使得具有几十层的网络能够开始收敛,用于随机梯度下降(SGD)和反向传播[22]。

当更深的网络能够开始收敛时,一个degradation的问题已经暴露出来:随着网络深度的增加,准确率会达到饱和(这可能并不令人惊讶),然后迅速degradation。出乎意料的是,这种degradation并不是由过度拟合引起的,在一个合适的深度模型上增加更多的层会导致更高的训练误差,这在文献[11, 42]中有所报道,并被我们的实验所彻底验证。图1显示了一个典型的例子。
在这里插入图片描述
训练精度的下降表明,并非所有的系统都同样容易优化。让我们考虑一个较浅的架构和在其上添加更多层的较深的对照。深层模型存在一个构造上的解决方案:增加的层是identity mapping(恒等映射),而其他的层是从学习的浅层模型中复制的。这种构造性解决方案的存在表明,较深的模型应该不会产生比较浅的模型更高的训练误差。但实验表明,我们目前的求解器无法找到与构建的解决方案相当或更好的解决方案(或者无法在可行的时间内做到这一点)。

在本文中,我们通过引入一个深度残差学习框架来解决degradation问题。我们不是希望每几个堆积层直接拟合一个期望的underlying mapping,而是明确地让这些层拟合一个residual mapping。形式上,将期望的underlying mapping表示为 H ( x ) H(x) H(x),我们让堆叠的非线性层拟合另一个映射 F ( x ) : = H ( x ) − x F(x) := H(x) - x F(x):=H(x)x。我们假设,优化residual mapping比优化原始的、未参考的映射更容易。极端地说,如果一个identity mapping是最优的,那么把残差推到0比用一叠非线性层来拟合一个identity mapping更容易。

F ( x ) + x F(x)+x F(x)+x可以通过带有 "shortcut connections"的前馈神经网络来实现(图2)。Shortcut connections[2, 34, 49]是那些跳过一个或多个层的连接。在我们的例子中,shortcut connections只是进行identity mapping,其输出被添加到堆叠层的输出中(图2)。Identity shortcut connections 既不增加额外的参数,也不增加计算的复杂性。整个网络仍然可以通过SGD与反向传播进行端到端的训练,并且可以使用普通的库(例如Caffe[19])轻松实现,无需修改求解器。
在这里插入图片描述

我们在ImageNet[36]上进行了综合实验,以显示degradation问题并评估我们的方法。我们表明。1)我们的极深的residual nets很容易优化,但对应的 "plain"网络(简单地堆叠层)在深度增加时表现出更高的训练误差;2)我们的deep residual nets可以很容易地享受到深度大大增加带来的精度提升,产生的结果大大优于以前的网络。

类似的现象在CIFAR-10数据集上也有显示[20],表明我们的方法的优化困难和效果不仅仅是适应于一个特定的数据集。我们在这个数据集上提出了超过100层的成功训练模型,并探索了超过1000层的模型。

在 ImageNet 分类数据集 [36] 上,我们通过极深的residual nets获得了出色的结果。我们的 152 层residual nets是 ImageNet 上有史以来最深的网络,但其复杂度仍低于 VGG 网络 [41]。我们的组合在 ImageNet 测试集上有 3.57% 的 top-5 错误,并在 ILSVRC 2015 分类竞赛中获得第一名。极深的表征在其他识别任务上也有出色的泛化性能,并使我们在以下方面进一步赢得了第一名。ImageNet检测、ImageNet定位、COCO检测和COCO分割的比赛中获得第一名。这些有力的证据表明,残差学习原理是通用的,我们期望它能适用于其他视觉和非视觉问题。

2. 相关工作

Residual Representations. 在图像识别中,VLAD[18]是一种representation,它根据字典中的残差向量进行编码,Fisher Vector[30]可以被表述为VLAD的概率版本[18]。它们都是用于图像检索和分类的强大的浅层representations法[4, 48]。对于向量量化,编码残差向量[17]被证明比编码原始向量更有效。

在低级别的视觉和计算机图形学中,为了解决偏微分方程(PDEs),广泛使用的Multigrid方法[3]将系统重新表述为多个尺度的子问题,其中每个子问题负责较粗和较细尺度之间的残余解。Multigrid的一个替代方法是分层基础预处理[45, 46],它依赖于代表两个尺度之间残差向量的变量。已经证明[3, 45, 46],这些求解器的收敛速度比没有意识到解的残差性质的标准求解器快得多。这些方法表明,一个好的重述或预处理可以简化优化。

Shortcut Connections. shortcut connections的做法和理论[2, 34, 49]已经被研究了很久。训练多层感知机(MLPs)的早期做法是增加一个从网络输入到输出的线性层[34, 49]。在[44, 24]中,一些中间层直接连接到辅助分类器,以解决梯度消失/爆炸的问题。[39, 38, 31, 47]的论文提出了将层响应、梯度和传播的错误居中的方法,由 shortcut connections实现。在[44]中,一个 "起始 "层是由一个捷径分支和几个更深的分支组成。

与我们的工作同时进行的 “highway networks”[42, 43]提出了具有gating functions的shortcut connections [15]。这些gates是依赖于数据的,并且有参数,与我们的无参数的identity shortcuts相比。当gated shortcut被 “关闭”(接近零)时,highway networks中的层代表了 non-residual functions。相反,我们的表述总是学习residual functions;我们的identity shortcuts永远不会关闭,所有的信息总是通过,还有额外的residual functions需要学习。此外,highway networks络并没有表现出随着深度的极度增加(例如,超过100层)而带来的准确性的提高。

3. 深度残差学习

3.1. 残差学习

让我们把 H ( x ) H(x) H(x)看作是由几个堆积层(不一定是整个网)拟合的underlying mapping, x x x表示这些层中第一个层的输入。如果假设多个非线性层可以渐进地逼近复杂的函数,那么就相当于假设它们可以渐进地逼近residual functions,即 H ( x ) − x H(x)-x H(x)x(假设输入和输出的尺寸相同)。因此,与其期望堆积层近似 H ( x ) H(x) H(x),不如明确地让这些层近似一个residual functions F ( x ) : = H ( x ) − x F(x) := H(x) - x F(x):=H(x)x.原函数因此成为 F ( x ) + x F(x)+x F(x)+x。尽管这两种形式都应该能够渐进地近似于所需的函数(如假设的那样),但学习的难易程度可能不同。

这种重新表述的动机是关于degradation 问题的反直觉现象(图1,左)。正如我们在介绍中所讨论的,如果增加的层可以被构造为identity mappings,那么更深的模型的训练误差应该不大于其较浅的对应。degradation 问题表明,求解器在通过多个非线性层来逼近identity mappings时可能有困难。通过残差学习重构,如果identity mappings是最优的,求解者可以简单地将多个非线性层的权重推向零以接近identity mappings。

在实际情况下,identity mappings不太可能是最优的,但我们的重述可能有助于对问题进行预处理。如果最优函数比zero mapping更接近 identity mapping,那么对于求解者来说,参照 identity mapping找到perturbation应该比学习新函数要容易。我们通过实验表明(图7),学习到的residual functions一般都有很小的响应,这说明 identity mapping提供了合理的预处理。

3.2. 通过Shortcuts进行 Identity Mapping

我们对每几个堆积层采用残差学习。图2中显示了一个构件。从形式上看,在本文中,我们认为一个构件定义为:
y = F ( x , { W i } ) + x ( 1 ) \mathbf{y}=\mathcal{F}\left(\mathbf{x},\left\{W_{i}\right\}\right)+\mathbf{x} (1) y=F(x,{Wi})+x1
这里 x x x y y y是所考虑的层的输入和输出向量。函数 F ( x , { W i } ) F(x, \{Wi\}) F(x,{Wi})表示要学习的residual mapping。对于图2中的例子,它有两个层, F = W 2 σ ( W 1 x ) F=W_2σ(W_1x) F=W2σ(W1x),其中 σ σ σ表示ReLU[29],为了简化符号,省略了偏差。 F + x F+x F+x的操作是通过shortcut connection和element-wise 相加来完成的。我们采用加法后的第二个非线性特征(即 σ ( y ) σ(y) σ(y),见图2)。

公式(1)中的shortcut connections既没有引入额外的参数,也没有引入计算的复杂性。这不仅在实践中很有吸引力,而且在我们对plain and residual networks的比较中也很重要。我们可以公平地比较同时具有相同数量的参数、深度、宽度和计算成本(除了可以忽略不计的元素增加)的plain/residual networks。

公式(1)中 x x x F F F的尺寸必须相等。如果情况不是这样(例如,当改变输入/输出通道时),我们可以通过shortcut connections进行线性投影 W s W_s Ws,以匹配尺寸。

y = F ( x , { W i } ) + W s x ( 2 ) \mathbf{y}=\mathcal{F}\left(\mathbf{x},\left\{W_{i}\right\}\right)+W_{s} \mathbf{x} (2) y=F(x,{Wi})+Wsx2
我们也可以在公式(1)中使用一个方形矩阵 W s Ws Ws。但我们通过实验表明,identity mapping足以解决退化问题,而且很经济,因此 W s W_s Ws只在尺寸匹配时使用。

残差函数 F F F的形式是灵活的。本文的实验涉及一个有两层或三层的函数 F F F(图5),而更多的层是可能的。但如果 F F F只有一个单层,公式(1)类似于一个线性层: y = W 1 x + x y = W_1x + x y=W1x+x,对此我们没有观察到优势。

我们还注意到,尽管为了简单起见,上述符号是关于全连接层的,但它们也适用于卷积层。函数 F ( x , { W i } ) F(x, \{Wi\}) F(x,{Wi})可以代表多个卷积层。element-wise相加是在两个特征图上进行的,逐个通道进行。

3.3. 网络架构

我们已经测试了各种plain/residual nets,并观察到了一致的现象。为了提供讨论的实例,我们对ImageNet的两个模型描述如下。

Plain Network. 我们的plain baselines(图3,中间)主要是受VGG[41](图3,左边)的理念启发。卷积层大多有3×3个滤波器,并遵循两个简单的设计规则:(1)对于相同的输出特征图大小,各层有相同数量的滤波器;(2)如果特征图大小减半,滤波器的数量增加一倍,以保持每层的时间复杂度。我们直接通过卷积层进行下采样,卷积层的步长为2。网络最后有一个全局平均池化层和一个具有softmax的1000-way全连接层。图3(中间)中加权层的总数为34。

值得注意的是,我们的模型比VGG [41]有更少的过滤器和更低的复杂性(图3,左)。我们的34层baseline 有36亿FLOPs(multiply-adds),这只是VGG-19(196亿FLOPs)的18%。
在这里插入图片描述
Residual Network. 在上述plain network的基础上,我们插入shortcut connections(图3,右),将网络变成其对应的残差版本。当输入和输出的尺寸相同时,可以直接使用identity shortcuts(公式(1))(图3中的实线捷径)。当尺寸增加时(图3中的虚线捷径),我们考虑两种选择:(A)捷径仍然执行identity shortcuts,在尺寸增加时填充额外的零。这个选项没有引入额外的参数;(B) 公式(2)中的投影shortcuts方式被用来匹配维度(通过1×1卷积完成)。对于这两个选项,当shortcuts穿过两个尺寸的特征图时,它们都以2的stride执行。

3.4. 实施

我们对ImageNet的实现遵循了[21, 41]中的做法。图像被调整大小,其较短的一边在[256, 480]中随机取样,用于比例增强[41]。224×224的裁剪是从图像或其水平翻转中随机采样的,并减去每像素的平均值[21]。使用[21]中的标准颜色增强。在每次卷积之后和激活之前,我们采用批量归一化(BN)[16],遵循[16]。我们按照[13]的方法初始化权重,并从头开始训练所有的plain/residual 。我们使用SGD,mini-batch大小为256。学习率从0.1开始,当误差趋于平稳时再除以10,模型的训练最多为60×104次迭代。我们使用0.0001的权重衰减和0.9的动量。我们不使用dropout[14],遵循[16]的做法。

在测试中,为了进行比较研究,我们采用了标准的10-crop测试[21]。为了获得最好的结果,我们采用了[41,13]中的完全卷积形式,并在多个尺度上平均得分(图像被调整大小,使短边在{224,256,384,480,640}中)。

4. 实验

4.1. ImageNet分类

我们在ImageNet 2012分类数据集[36]上评估我们的方法,该数据集由1000个类别组成。模型在128万张训练图像上进行训练,并在5万张验证图像上进行评估。我们还在测试服务器报告的10万张测试图像上获得最终结果。我们评估了top-1 and top-5的错误率。

Plain Networks. 我们首先评估18层和34层的plain Networks.。34层plain net在图3(中间)。18层plain net的形式类似。详细结构见表1
在这里插入图片描述
表2中的结果显示,较深的34层plain net比较浅的18层plain net的验证误差要高。为了揭示原因,在图4(左)中我们比较了它们在训练过程中的训练/验证误差。我们观察到一个degradation 问题–在整个训练过程中,34层plain net的训练误差较高,尽管18层plain net的解空间是34层网络的子空间。
在这里插入图片描述

我们认为,这种优化困难不太可能是由梯度消失引起的。这些plain net是用BN[16]训练的,它保证了前向传播的信号具有非零的方差。我们也验证了后向传播的梯度在BN中表现出健康的准则。所以前向和后向信号都没有消失。事实上,34层plain net仍然能够达到有竞争力的精度(表3),这表明该求解器在某种程度上是有效的。我们猜想,深层plain net可能有指数级的低收敛率,这影响了训练误差的减少。这种优化困难的原因将在未来进行研究。

Residual Networks. 接下来我们评估18层和34层的残差网(ResNets)。基线结构与上述plain net相同,只是在每对3×3过滤器上增加了一个shortcut connection ,如图3(右)。在第一个比较中(表2和图4右),我们对所有的shortcut connection 使用identity mapping,对增加的维度使用零填充(选项A)。因此,与普通的对应方案相比,它们没有额外的参数。

从表2和图4中我们有三个主要的观察结果。首先,情况与残差学习相反–34层的ResNet比18层的ResNet要好(2.8%)。更重要的是,34层的ResNet表现出相当低的训练误差,并且可以推广到验证数据。这表明,在这种情况下,degradation 问题得到了很好的解决,我们设法从增加的深度中获得了准确性的提高。
在这里插入图片描述
其次,与普通的对应物相比,34层的ResNet将top-1的误差降低了3.5%(表2),这是因为成功降低了训练误差(图4右侧与左侧)。这一比较验证了残差学习在极深系统上的有效性。

最后,我们还注意到,18层的plain/residual nets的精度相当(表2),但18层的ResNet收敛得更快(图4右图与左图)。当网 "不是太深 "时(这里是18层),目前的SGD求解器仍然能够找到plain net的良好解决方案。在这种情况下,ResNet通过在早期阶段提供更快的收敛而缓解了优化。

**Identity vs. Projection Shortcuts.**我们已经证明无参数的identity shortcuts有助于训练。接下来我们研究projection shortcuts(Eqn.(2))。在表 3 中我们比较了三个选项: (A) 零填充shortcuts 用于增加维度,并且所有shortcuts 都是无参数的(与表 2 和图 4 右相同); (B)projection shortcuts用于增加维度,其他shortcuts是标识; © 所有的shortcuts都是projections。
在这里插入图片描述
表 3 显示所有三个选项都比普通选项好得多。 B 略好于 A。我们认为这是因为 A 中的零填充维度确实没有残差学习。 C 略好于 B,我们将此归因于许多(13 个)projection shortcuts引入的额外参数。但是 A/B/C 之间的微小差异表明projection shortcuts对于解决degradation 问题并不是必不可少的。因此,我们在本文的其余部分不使用选项 C,以降低内存/时间复杂度和模型大小。Identity shortcuts对于不增加下面介绍的瓶颈架构的复杂性特别重要。

更深的Bottleneck架构。接下来我们描述我们的 ImageNet 更深层次的网络。由于担心我们可以承受的训练时间,我们将构建块修改为bottleneck设计。对于每个残差函数 F F F,我们使用 3 层而不是 2 层的堆栈(图 5)。这三层分别是 1×1、3×3 和 1×1 卷积,其中 1×1 层负责减少然后增加(恢复)维度,使 3×3 层成为输入/输出维度较小的瓶颈.图 5 显示了一个示例,其中两种设计具有相似的时间复杂度。
在这里插入图片描述

无参数 identity shortcuts对于bottleneck架构尤为重要。如果将图 5(右)中的identity shortcuts替换为projection,,可以看出时间复杂度和模型大小加倍,因为shortcut连接到两个高维端。因此,identity shortcuts 可以为bottleneck设计带来更有效的模型。

50-layer ResNet:我们将 34 层网络中的每个 2-layer block替换为这个 3 层bottleneck块,从而得到 50 层 ResNet(表 1)。我们使用选项 B 来增加维度。这个模型有 38 亿次 FLOP。

101-layer and 152-layer ResNets:我们通过使用更多的 3-layer blocks构建 101 层和 152 层 ResNet(表 1)。值得注意的是,虽然深度显着增加,但 152 层的 ResNet(113 亿 FLOPs)的复杂度仍然低于 VGG-16/19 网络(15.3/196 亿 FLOPs)。

50/101/152 层的 ResNet 比 34 层的 ResNet 更准确,有相当大的优势(表 3 和表 4)。我们没有观察到degradation 问题,因此从显着增加的深度中获得了显着的准确性提升。所有评估指标都见证了深度的好处(表 3 和表 4)。
在这里插入图片描述
Comparisons with State-of-the-art Methods。在表 4 中,我们与之前的最佳单模型结果进行了比较。我们的基线 34 层 ResNets 已经达到了非常有竞争力的准确性。我们的 152 层 ResNet 的单模型 top-5 验证误差为 4.49%。这个单一模型的结果优于所有以前的集成结果(表 5)。我们将六个不同深度的模型组合成一个整体(提交时只有两个 152 层的模型)。这导致测试集上 3.57% 的 top-5 错误(表 5)。此条目在 ILSVRC 2015 中获得第一名。
在这里插入图片描述

4.2. CIFAR-10 和分析

我们对 CIFAR-10 数据集 [20] 进行了更多研究,该数据集由 10 个类别的 50k 训练图像和 10k 测试图像组成。我们展示了在训练集上训练并在测试集上进行评估的实验。我们的重点是极深网络的行为,而不是推动最先进的结果,因此我们有意使用如下简单架构。

plain/residual 架构遵循图 3(中/右)中的形式。网络输入是 32×32 图像,减去每像素平均值。第一层是 3×3 卷积。然后我们在大小为 {32,16,8} 的特征图上分别使用 6n 层和 3×3 卷积,每个特征图大小有 2n 层。过滤器的数量分别为 {16, 32, 64}。子采样通过步长为 2 的卷积执行。网络以全局平均池化、10 路全连接层和 softmax 结束。总共有 6n+2 个堆叠的加权层。下表总结了架构:
在这里插入图片描述
当使用shortcut connections时,它们连接到成对的 3×3 层(总共 3n 个快捷方式)。在这个数据集上,我们在所有情况下都使用 identity shortcuts(即选项 A),所以我们的残差模型具有与普通模型完全相同的深度、宽度和参数数量。

我们使用 0.0001 的权重衰减和 0.9 的动量,并采用 [13] 和 BN [16] 中的权重初始化,但没有 dropout。这些模型在两个 GPU 上以 128 的 minibatch 大小进行训练。我们从 0.1 的学习率开始,在 32k 和 48k 迭代时将其除以 10,并在 64k 迭代时终止训练,这取决于 45k/5k 训练/验证拆分。我们遵循 [24] 中的简单数据增强进行训练:每边填充 4 个像素,并从填充图像或其水平翻转中随机采样 32×32 裁剪。为了测试,我们只评估原始 32×32 图像的单视图。
在这里插入图片描述

我们比较 n = {3, 5, 7, 9},得出 20、32、44 和 56 层网络。图 6(左)显示了plain nets的行为。深平原网络的深度增加,并且在更深时表现出更高的训练误差。这种现象类似于 ImageNet(图 4,左)和 MNIST(参见 [42])上的现象,表明这种优化困难是一个基本问题。

图 6(中)显示了 ResNets 的行为。同样与 ImageNet 案例(图 4,右)类似,我们的 ResNet 设法克服了优化困难,并在深度增加时展示了准确度的提高。

我们进一步探索导致 110 层 ResNet 的 n = 18。在这种情况下,我们发现 0.1 的初始学习率稍微太大而无法开始收敛5。所以我们使用 0.01 来预热训练,直到训练误差低于 80%(大约 400 次迭代),然后再回到 0.1 继续训练。其余的学习计划如前所述。这个 110 层的网络收敛得很好(图 6,中间)。它的参数少于其他深度和瘦网络,例如 FitNet [35] 和 Highway [42](表 6),但却是最先进的结果之一(6.43%,表 6)。
在这里插入图片描述
Analysis of Layer Responses. 图 7 显示了层响应的标准偏差 (std)。响应是每个 3×3 层的输出,在 BN 之后和其他非线性(ReLU/加法)之前。对于 ResNets,该分析揭示了残差函数的响应强度。图 7 显示,ResNet 的响应通常比普通的响应小。这些结果支持我们的基本动机(第 3.1 节),即残差函数可能通常比非残差函数更接近于零。我们还注意到,更深的 ResNet 的响应幅度更小,如图 7 中 ResNet-20、56 和 110 之间的比较所证明的那样。当层数更多时,ResNet 的单个层往往对信号的修改更少。

在这里插入图片描述
Exploring Over 1000 layers. 我们探索了一个超过 1000 层的深度模型。我们将 n = 200 设置为 1202 层的网络,该网络的训练如上所述。我们的方法没有优化困难,这个 103 层的网络能够实现训练误差 <0.1%(图 6,右)。它的测试误差仍然相当好(7.93%,表 6)。

但是在这种激进的深度模型上仍然存在一些未解决的问题。这个 1202 层网络的测试结果比我们的 110 层网络差,尽管两者都有相似的训练误差。我们认为这是因为过度拟合。对于这个小数据集,1202 层的网络可能不必要地大(19.4M)。应用诸如 maxout [10] 或 dropout [14] 之类的强正则化来在该数据集上获得最佳结果 ([10, 25, 24, 35])。在本文中,我们不使用 maxout/dropout,只是通过设计的深度和瘦架构简单地施加正则化,而不会分散对优化困难的关注。但是结合更强的正则化可能会改善结果,我们将在未来研究。

4.3. PASCAL 和 MS COCO 上的对象检测

我们的方法在其他识别任务上具有良好的泛化性能。表 7 和表 8 显示了 PASCAL VOC 2007 和 2012 [5] 和 COCO [26] 上的对象检测基线结果。我们采用 Faster R-CNN [32] 作为检测方法。在这里,我们对用 ResNet-101 替换 VGG-16 [41] 的改进感兴趣。使用两种模型的检测实现(见附录)是相同的,因此收益只能归因于更好的网络。最引人注目的是,在具有挑战性的 COCO 数据集上,我们获得了 COCO 的标准度量(mAP@[.5, .95])增加了 6.0%,相对改善了 28%。这种增益完全是由于学习到的表示。
在这里插入图片描述
基于深度残差网络,我们在 ILSVRC & COCO 2015 比赛的多个赛道中获得第一名:ImageNet 检测、ImageNet 定位、COCO 检测和 COCO 分割。详细信息在附录中。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值