CVPR--Deformable ConvNets v2: More Deformable, Better Results 论文翻译

论文 https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhu_Deformable_ConvNets_V2_More_Deformable_Better_Results_CVPR_2019_paper.pdf

摘要 

        Deformable Convolutional Networks(可变卷积神经网络)的卓越性能源于其适应物体的几何变化能力。通过对其自适应行为的观察,我们注意到,与常规卷积神经网络相比,其神经特征的空间支持更密切地符合物体结构,但这种支持可能仍然会延伸到兴趣区域之外,导致特征受到无关的图像内容的影响。为了解决这个问题,我们提出了Deformable ConvNets的重新构建,以改善其专注于相关图像区域的能力,通过增强建模能力和更强的训练。建模能力通过在网络中更全面地集成可变卷积以及引入扩大变形建模范围的调制机制而得以增强。为了有效地利用这种丰富的建模能力,我们通过提出的特征模仿方案来引导网络训练,帮助网络学习反映RCNN特征的物体关注和分类能力的特征。通过这些提出的贡献,这个新版本的Deformable ConvNets在目标检测和实例分割的COCO基准测试中取得了显著的性能提升,并取得了领先的成绩。

1 介绍

        由于尺度、姿态、视角和部分变形引起的几何变化对于物体的识别和检测构成了一个重大挑战。目前解决这个问题的最先进方法是可变卷积网络(DCNv1)[7],它引入了两个模块,可以帮助卷积神经网络模拟这些变化。其中一个模块是可变卷积,标准卷积的网格采样位置分别偏移,偏移是根据前面的特征图学习得出的。另一个模块是可变RoIpooling,其中为RoIpooling中的bin位置学习了偏移。将这些模块并入神经网络使其能够适应对象的特征表示,特别是通过改变其采样和池化模式以适应对象的结构。采用这种方法可以显著提高目标检测的准确性。

        为了更好地理解可变卷积网络,作者通过在PASCAL VOC图像中排列偏移采样位置来可视化感受野的变化[10]。研究发现,激活单元的样本倾向于聚集在其上的对象周围。然而,对于对象的覆盖是不精确的,表现出样本在感兴趣区域之外的分布。通过对更具挑战性的COCO数据集[28]中的图像进行更深入的空间支持分析,我们观察到这种行为变得更加明显。这些发现表明,可学习可变卷积的潜力更大。

        在本文中,我们提出了Deformable ConvNets的新版本,称为Deformable ConvNets v2(DCNv2),它具有增强的建模能力,可以学习可变卷积。建模能力的增强分为两个互补的形式。第一个是在网络内更广泛地使用可变卷积层。为更多的卷积层配备偏移学习能力,使DCNv2可以控制更广泛范围的特征层上的采样。第二个是可变卷积模块中的调制机制,其中每个样本不仅经历了学习的偏移,还受到学习的特征振幅的调制。因此,网络模块获得了同时改变其样本的空间分布和相对影响的能力。

        为了充分发挥DCNv2增强的建模能力,需要有效的训练。受神经网络知识蒸馏工作的启发[1, 21],我们利用一位"教师"网络来实现这一目的,这位教师在训练过程中提供指导。具体来说,我们使用R-CNN[16]作为教师网络。因为它是一个经过裁剪图像内容分类训练的网络,R-CNN学习到的特征不受感兴趣区域之外的无关信息影响。为了模拟这个特性,DCNv2在其训练中引入了特征模仿损失,有利于学习与R-CNN相一致的特征。通过这种方式,DCNv2获得了其增强的可变采样的强烈训练信号。

        通过提出的改进,可变模块仍然保持轻量级,可以轻松地集成到现有的网络架构中。具体而言,我们将DCNv2集成到Faster R-CNN[32]和Mask R-CNN[19]系统中,使用了各种不同的骨干网络。在COCO基准测试上的大量实验显示,DCNv2在目标检测和实例分割方面明显优于DCNv1。DCNv2的代码将被发布。

2 分析可变卷积网络行为

2.1 空间支持可视化

        为了更好地理解可变卷积网络的行为,我们通过有效感受野[30]、有效采样位置以及误差有界显著性区域的可视化来呈现网络节点的空间支持。这三种方式提供了不同和互补的视角,用于分析对节点响应产生影响的底层图像区域。

        有效感受野:不是网络节点感受野内的所有像素对其响应产生相同的贡献。这些贡献的差异由有效感受野表示,其值是根据对每个图像像素的强度扰动而计算的节点响应的梯度[30]。我们利用有效感受野来检查单个像素对网络节点的相对影响,但需要注意,这个度量不反映完整图像区域的结构化影响。

        有效采样/区位位置:在[7]中,我们可视化了(堆叠的)卷积层的采样位置和RoIpooling层的采样区位置,以了解可变卷积网络的行为。然而,这些采样位置对网络节点的相对贡献并没有被揭示出来。相反,我们可视化了包括这些信息的有效采样位置,其计算是根据采样/区位位置对网络节点的梯度来完成,以了解它们的贡献强度。

        误差有界显著性区域:如果我们去除不影响网络节点的图像区域,网络节点的响应不会改变,正如最近关于图像显著性的研究所示[40, 41, 12, 6]。基于这一特性,我们可以确定节点的支持区域,即在一个小误差范围内,提供与完整图像相同响应的最小图像区域。我们将其称为误差有界显著性区域,可以通过逐步遮挡图像的部分并计算生成的节点响应来找到,具体细节在附录中有更详细的描述。误差有界显著性区域有助于比较不同网络的支持区域。

2.2. 可变卷积网络的空间支持

        我们在目标检测中分析可变卷积网络的视觉支持区域。我们使用常规卷积网络作为基准,其由Faster R-CNN + ResNet50 [20]目标检测器与对齐的RoIpooling1 [19]组成。ResNet-50中的所有卷积层都应用在整个输入图像上。在conv5阶段,有效步幅从32个像素减小到16个像素,以增加特征图的分辨率。我们在ResNet-101的conv4特征之上添加了RPN [32]头。在conv5特征之上,我们添加了Fast R-CNN头[15],由对齐的RoIpooling和两个全连接(fc)层组成,然后是分类和边界框回归分支。

        我们遵循[7]中的步骤,将目标检测器转换为可变卷积网络。conv5阶段的三个3x3卷积层被可变卷积层所替代。另外,对齐的RoIpooling层被可变RoIPooling所替代。这两个网络在COCO基准上进行了训练和可视化。值得一提的是,当偏移学习率设置为零时,可变Faster R-CNN检测器会退化为常规Faster R-CNN与对齐RoIpooling。

(a) regular conv

(b) deformable conv@conv5 stage (DCNv1)

(c) modulated deformable conv@conv3∼5 stages (DCNv2)

图1. 常规卷积网络、DCNv1和DCNv2在conv5阶段最后一层节点的空间支持。常规卷积网络基线为Faster R-CNN + ResNet-50。在每个子图中,从上到下显示了有效采样位置、有效感受野和误差有界显著性区域。有效采样位置在(c)中被省略,因为它们与(b)中的相似,提供有限的额外信息。可视化的节点(绿色点)分布在小物体(左)、大物体(中)和背景(右)上。

        通过这三种可视化方式,我们研究了在conv5阶段的最后一层中节点的空间支持区域,如图1(a)∼(b)所示。[7]中分析的采样位置也被显示出来。通过这些可视化,我们得出以下观察结果:

  1. 常规卷积网络可以在一定程度上模拟几何变化,这一点可以从相对于图像内容的空间支持变化中看出。由于深度卷积网络具有强大的表示能力,网络权重被学习用于适应一定程度的几何变换。
  2. 通过引入可变卷积,网络对于建模几何变换的能力得到了显著增强,即使在具有挑战性的COCO基准测试上也是如此。空间支持更好地适应了图像内容,前景上的节点具有覆盖整个物体的支持,而背景上的节点具有扩展的支持,包括更广泛的上下文。然而,空间支持的范围可能不精确,前景节点的有效感受野和误差有界显著性区域可能包括与检测无关的背景区域。
  3. 这三种呈现的空间支持可视化类型比[7]中使用的采样位置更具信息量。这可以通过常规卷积网络来进行观察,常规卷积网络具有沿网格的固定采样位置,但实际上通过网络权重来调整其有效空间支持。对于可变卷积网络也是如此,其预测受到学习的偏移和网络权重的联合影响。仅仅检查采样位置,如[7]中所做的,可能会导致对可变卷积网络的错误结论。

(a) aligned RoIpooling, with deformable conv@conv5 stage

(b) deformable RoIpooling, with deformable conv@conv5 stage (DCNv1)

(c) modulated deformable RoIpooling, with modulated deformable conv@conv3∼5 stages 

(d) with R-CNN feature mimicking on setting (c) (DCNv2) 

(e) with R-CNN feature mimicking in regular ConvNet 

        图2(a)∼(b)显示了RoI检测头中2fc节点的空间支持,紧接着是分类和边界框回归分支。有效区位位置的可视化表明,物体前景上的区位通常会从分类分支获得更大的梯度,因此对预测产生更大的影响。这一观察对齐的RoIpooling和可变RoIpooling都成立。在可变RoIpooling中,相较于对齐的RoIpooling,更大比例的区位覆盖物体前景,这要归功于可学习的区位偏移的引入。因此,对下游的Fast R-CNN头来说,来自相关区位的更多信息可用。与此同时,无论是对齐的RoIpooling还是可变RoIpooling中的误差有界显著性区域都没有完全集中在物体前景上,这表明RoI之外的图像内容会影响预测结果。根据最近的研究[5],这种特征干扰可能对检测产生不利影响。

        虽然明显可见可变卷积网络在适应几何变化方面相较于常规卷积网络有显著提高,但也可以看到它们的空间支持可能会延伸到感兴趣区域之外。因此,我们寻求升级可变卷积网络,以便它们能更好地聚焦于相关图像内容,提供更高的检测准确性。

3更多可变卷积网络

        为了提高网络对几何变化的适应能力,我们提出了一些变化,以增强其建模能力,帮助它充分利用这种增强的能力。

3.1. 堆叠更多可变卷积层

        在观察到可变卷积网络在具有挑战性的基准测试中能够有效地建模几何变换的基础上,我们大胆地用更多的常规卷积层替换为可变卷积层。我们期望通过堆叠更多的可变卷积层,整个网络的几何变换建模能力可以进一步加强。

        在本文中,可变卷积应用在ResNet-50的conv3、conv4和conv5阶段的所有3x3卷积层中。因此,在网络中有12层可变卷积。相比之下,在[7]中仅使用了三层可变卷积,都在conv5阶段。在[7]中观察到,对于相对简单且小规模的PASCAL VOC基准测试,当堆叠超过三层时性能会饱和。此外,对COCO基准上的误导性偏移可视化可能已经阻碍了对更具挑战性基准测试的进一步探索。在实验中,我们观察到在conv3-conv5阶段使用可变层能够在COCO上实现目标检测的准确性和效率之间的最佳权衡。详细信息请参见第5.2节。

3.2. 调制可变卷积模块

        为了进一步增强可变卷积网络在操作空间支持区域方面的能力,引入了一种调制机制。通过这种机制,可变卷积网络模块不仅可以调整感知输入特征的偏移,还可以调制不同空间位置/区位的输入特征幅度。在极端情况下,模块可以通过将其特征幅度设置为零来决定不感知特定位置/区位的信号。因此,来自相应空间位置的图像内容将会对模块的输出产生显著减小或没有影响。因此,调制机制为网络模块提供了另一个维度的自由度,以调整其空间支持区域。

        给定一个卷积核具有K个采样位置,让wk和pk分别表示第k个位置的权重和预定偏移。例如,K = 9和pk ∈ {(−1, −1),(−1, 0), . . . ,(1, 1)} 定义了一个扩张1的3x3卷积核。让x(p)和y(p)分别表示输入特征图x和输出特征图y中来自位置p的特征。则调制的可变卷积可以表达为:

        在上述公式中,∆pk和∆mk分别是第k个位置的可学习偏移和调制标量。调制标量∆mk位于范围[0, 1]内,而∆pk是一个实数,范围不受限制。由于p + pk + ∆pk是分数,因此在计算x(p + pk + ∆pk)时应用了双线性插值,就像[7]中一样。∆pk和∆mk都是通过应用于相同输入特征图x的独立卷积层获得的。这个卷积层与当前卷积层具有相同的空间分辨率和扩张。输出为3K个通道,其中前2K个通道对应于学习的偏移{∆pk}(从k=1到K),其余的K个通道进一步馈送到一个Sigmoid层以获得调制标量{∆mk}(从k=1到K)。这个单独的卷积层中的卷积核权重被初始化为零。因此,∆pk和∆mk的初始值分别为0和0.5。用于偏移和调制学习的附加卷积层的学习率设置为现有层的10%。

        调制的可变RoIpooling的设计类似。给定一个输入的RoI,RoIpooling将其分为K个空间区位(例如7×7)。在每个区位内,应用均匀空间间隔的采样网格(例如2×2)。采样网格上的采样值被平均以计算区位输出。让∆pk和∆mk分别表示第k个区位的可学习偏移和调制标量。输出的区位特征y(k)计算如下:

3.3. R-CNN特征模仿

        如图2所示,每个RoI分类节点的误差有界显著性区域可以延伸到RoI之外,对于常规卷积网络和可变卷积网络都是如此。因此,RoI之外的图像内容可能会影响提取的特征,从而降低了目标检测的最终结果。

        在[5]中,作者发现冗余的上下文是Faster R-CNN检测错误的一个可能原因。除了其他动机(例如,在分类和边界框回归分支之间共享较少的特征),作者提出将Faster R-CNN和R-CNN的分类分数结合起来以获得最终的检测分数。由于R-CNN分类分数集中在从输入RoI裁剪的图像内容上,将它们合并将有助于缓解冗余上下文问题并提高检测准确性。然而,合并的系统速度较慢,因为Faster-RCNN和R-CNN分支需要在训练和推断中都应用。与此同时,可变卷积网络在调整空间支持区域方面非常强大。特别是对于可变卷积网络v2,调制的可变RoIpooling模块可以简单地设置区位的调制标量,以排除冗余上下文。然而,我们在第5.3节的实验中发现,即使通过调制的可变模块,也不能很好地通过标准的Faster R-CNN训练过程学习这样的表示。我们怀疑这是因为传统的Faster RCNN训练损失不能有效地推动这种表示的学习。需要额外的指导来引导训练。

        受到关于特征模仿的最近工作的启发[1, 21, 26],我们在可变Faster R-CNN的每个RoI特征上加入了一个特征模仿损失,强制使它们与从裁剪图像中提取的R-CNN特征相似。这个辅助训练目标旨在驱使可变Faster R-CNN学习更加“聚焦”的特征表示,就像R-CNN一样。需要注意的是,根据图2中可视化的空间支持区域,在背景上,聚焦的特征表示可能不是最佳的。对于背景区域,可能需要考虑更多的上下文信息,以避免产生假阳性检测。因此,特征模仿损失仅对与地面实际物体充分重叠的正面RoI强制执行。

 

Figure 3. 带有 R-CNN 特征模仿的网络训练。

        用于训练可变Faster R-CNN的网络架构如图3所示。除了Faster R-CNN网络,还添加了额外的R-CNN分支用于特征模仿。对于特征模仿的RoI b,与之对应的图像块被裁剪并调整大小为224×224像素。在R-CNN分支中,骨干网络在调整大小后的图像块上操作,并产生14×14的空间分辨率的特征图。在特征图之上应用了(调制的)可变RoIpooling层,其中输入的RoI覆盖整个调整大小后的图像块(左上角在(0,0),高度和宽度分别为224像素)。之后,应用两个1024-D的fc层,产生输入图像块的R-CNN特征表示,表示为fRCNN(b)。进行分类时,采用(C+1)路Softmax分类器,其中C表示前景类别的数量,加上一个背景类别。特征模仿损失在fRCNN(b)和Faster R-CNN中的相应特征表示fFRCNN(b)之间强制执行,后者也是1024-D,并由Fast R-CNN头部的2个fc层产生。特征模仿损失定义为fRCNN(b)和fFRCNN(b)之间的余弦相似性,计算如下:

        上述公式中,Ω表示用于特征模仿训练的RoIs集合。在SGD训练中,对于给定的输入图像,由RPN生成的32个正面区域提议随机抽样到Ω中。对R-CNN分类头部也施加交叉熵分类损失,同样是在Ω中计算。网络训练由特征模仿损失、R-CNN分类损失以及Faster R-CNN中的原始损失项一起驱动。引入的两个新损失项的损失权重是原始Faster R-CNN损失项的0.1倍。R-CNN和Faster R-CNN分支中相应模块之间的网络参数是共享的,包括骨干网络、(调制的)可变RoIpooling和2个fc头部(两个分支的分类头部是不共享的)。在推断中,只有Faster R-CNN网络应用于测试图像,没有辅助的R-CNN分支。因此,在推断中,特征模仿不引入额外的计算。

 4相关工作

        变形建模是计算机视觉中一个长期存在的问题,已经付出了巨大的努力来设计具有平移不变性的特征。在深度学习时代之前,著名的工作包括尺度不变特征变换(SIFT)[29]、定向FAST和旋转BRIEF(ORB)[33]以及可变部分模型(DPM)[11]。这些工作受到手工制作特征的表现能力较差以及它们所涉及的几何变换家族受限(例如仿射变换)的限制。空间变换网络(STN)[24]是第一个关于为深度CNN学习平移不变特征的工作。它学会应用全局仿射变换来扭曲特征图,但这种变换不能充分地模拟许多视觉任务中遇到的更复杂的几何变换。可变卷积网络不是通过执行全局参数化变换和特征扭曲,而是通过提出的可变卷积和可变RoIpooling模块中的可学习偏移以一种局部且密集的方式对特征图进行采样。可变卷积网络是第一个有效地模拟复杂视觉任务(例如目标检测和语义分割)中的几何变换的工作(例如在具有挑战性的基准上)。

        我们的工作通过增强其建模能力和促进网络训练来扩展可变卷积网络。这个新版本的可变卷积网络相对于原始模型取得了显著的性能提升。

      关系网络和注意力模块首次在自然语言处理领域[13, 14, 3, 35]和物理系统建模领域[2, 37, 22, 34, 9, 31]中提出。关注/关系模块通过从一组元素(例如句子中的所有单词)中聚合特征来影响单个元素(例如句子中的一个单词)。聚合权重通常基于元素之间的特征相似性来定义。这些模块在捕捉长距离依赖关系和上下文信息方面非常强大。最近,[23]和[36]的同时工作成功将关系网络和注意力模块扩展到图像领域,用于建模长距离的对象-对象关系和像素-像素关系,分别。在[18]中,提出了一个可学习的区域特征提取器,从像素-对象关系的角度统一了以前的区域特征提取模块。这些方法的一个常见问题是,聚合权重和聚合操作需要以成对的方式计算元素,引入了与元素数量的平方成正比的重计算(例如,图像中的所有像素)。我们开发的方法可以被看作是一种特殊的注意机制,其中只有一小部分元素具有非零的聚合权重(例如,在所有图像像素中选择3×3像素)。这些被关注的元素由可学习的偏移指定,而聚合权重由调制机制控制。计算开销仅与元素数量呈线性关系,与整个网络的计算开销相比可以忽略不计(见表1)。

        对于带孔卷积,卷积层的空间支持是通过在卷积核中填充零来扩大的[4]。填充参数是手动选择和预定的。在活动卷积[25]中,与可变形卷积同时期,通过反向传播学习了卷积核的偏移。但是这些偏移是在训练后固定的静态模型参数,并在不同的空间位置共享。在用于目标检测的多路径网络[39]中,为了更好地利用多尺度和上下文信息,为每个输入RoI使用多个RoIpooling层。多个RoIpooling层以输入RoI为中心,具有不同的空间尺度。这些方法的一个普遍问题是,空间支持由静态参数控制,不会根据图像内容进行调整。

        有效感受野和显著区域。为了更好地解释深度网络的工作原理,已经在理解哪些图像区域对网络预测贡献最大方面取得了显著进展。关于有效感受野[30]和显著区域[40, 41, 12, 6]的最近研究揭示了理论感受野中只有很小一部分像素对最终网络预测有显著贡献。有效支持区域由网络权重和采样位置的联合效应控制。在这里,我们利用开发的技术来更好地理解可变形卷积网络的网络行为。由此产生的观察结果指导和激励我们改进原始模型。

        网络模仿和蒸馏是最近引入的模型加速和压缩技术。在给定一个大型教师模型的情况下,通过在训练图像上模仿教师模型的输出或特征响应来训练一个紧凑的学生模型[1, 21, 26]。希望紧凑模型能够通过从大模型中提取知识来更好地训练。在这里,我们使用特征模仿损失来帮助网络学习反映R-CNN特征的对象焦点和分类能力的特征。这种方法提高了准确性,并且可视化的空间支持证实了这一方法。

5实验

5.1实验设置:

        我们的消融实验是在COCO 2017训练集的118,000张图像上进行的。评估是在COCO 2017验证集的5,000张图像上进行的。我们还评估了在联合COCO 2017训练和验证集上训练的模型在COCO 2017测试开发集的20,000张图像上的性能。用于衡量目标检测和实例分割准确性的是不同框和掩码IoU的标准均值平均精度分数。 我们选择Faster R-CNN和Mask R-CNN作为基线系统。使用ImageNet[8]预训练的ResNet-50作为骨干网络。Faster R-CNN的实现与第3.3节中相同。对于Mask R-CNN,我们遵循[19]中的实现,因此使用FPN[27]。 为了将这些网络转化为可变形网络,最后一组3×3的常规卷积层(接近底部向上计算的输出)被(调制的)可变形卷积层替换。对齐的RoIpooling被(调制的)可变形RoIpooling替换。特别是对于Mask R-CNN,7×7和14×14个容器的两个对齐的RoIpooling层被两个(调制的)可变形RoIpooling层以相同的容器数替换。在R-CNN特征模仿中,特征模仿损失仅在用于分类的RoI头上强制执行(不包括用于蒙版估计的RoI头)。对于这两种系统,超参数的选择遵循最新的Detectron[17]代码库,简要介绍如下。在训练和推理中,图像被调整大小,使较短的边为800像素,并使用5个尺度和3个纵横比的锚点。在训练和推理时,分别以非最大抑制阈值0.7生成256个锚点框(正负例比例为1:1)和512个区域提案(正负例比例为1:3)以进行梯度反向传播。在我们的实验中,网络在8个GPU上进行训练,每个GPU上有2个图像,共进行16个时期。学习率初始化为0.02,并在第10和第14个时期除以10。权重衰减和动量参数分别设置为10的-4次方和0.9。

5.2. 丰富的变形建模

        表1. 丰富变形建模的割除研究。在设置列中,“(m)dconv”和“(m)dpool”分别代表(调制)可变形卷积和(调制)可变形RoI池化。此外,“dconv@c3∼c5”代表在conv3∼conv5阶段应用可变形卷积层,例如。结果报告在COCO 2017验证集上。

        通过表1中所示的割除效果来研究丰富的变形建模。具有常规CNN模块的基线获得Faster R-CNN的APbbox得分为35.6%,Mask R-CNN的APbbox和APmask得分分别为37.8%和33.4%。这个强大的基线与Detectron中的最新实现结果相匹配。要获得DCNv1基线,我们遵循原Deformable ConvNets论文,将conv5阶段中的最后三层3×3卷积和对齐的RoI池化层替换为它们的可变形对应物。这个DCNv1基线在Faster R-CNN上获得了APbbox得分38.2%,Mask R-CNN上分别获得APbbox和APmask得分40.3%和35.0%。如[7]中所观察到的那样,可变形模块显著提高了准确性。 通过将更多3×3常规卷积层替换为它们的可变形对应物,当在conv3-conv5中替换卷积层时,Faster RCNN和Mask R-CNN的准确性稳步提高,APbbox和APmask得分分别提高1.5%和2.0%。在COCO基准上,通过进一步替换conv2阶段的常规卷积层,没有观察到额外的改进。 通过升级可变形模块到调制可变形模块,我们在APbbox和APmask得分上获得了0.6%到1.0%的额外增益。总之,丰富的变形建模能力产生了Faster R-CNN的40.8%APbbox得分,比DCNv1基线高2.6%。在Mask R-CNN上,通过丰富的变形建模,获得了42.7%APbbox和37.0%APmask得分,分别比DCNv1基线高2.4%和2.0%。需要注意的是,丰富变形建模所添加的参数和FLOPs相对于整体网络来说是次要的。 如图1(b)∼(c)所示,与DCNv1相比,丰富的可变形建模的空间支持更好地适应图像内容。

5.3. R-CNN特征模仿

        表2. R-CNN特征模仿的割除研究。结果报告在COCO 2017验证集上。

        表2展示了在R-CNN特征模仿中的设计选择的割除效果。在丰富的变形建模的基础上,R-CNN特征模仿进一步提高了Faster R-CNN和Mask R-CNN系统中的APbbox和APmask分数,分别提高了约1%到1.6%。发现模仿目标前景上的正样本特征特别有效,而在模仿所有框或只有负样本时,结果要低得多。如图2(c)∼(d)所示,特征模仿可以帮助网络特征更好地聚焦在目标前景上,这对于正样本很有益。对于负样本,网络倾向于利用更多的上下文信息(见图2),这种情况下特征模仿将不会有所帮助。 我们还将R-CNN特征模仿应用到没有任何可变形层的常规ConvNets上。几乎没有观察到准确度的提升。可视化的空间支持区域如图2(e)所示,即使使用辅助模仿损失,也没有集中在目标前景上。这可能是因为常规ConvNets的表示能力已经超越了将特征集中在目标前景上,因此无法学到这一点。

5.4. 在更强大的骨干网络上的应用

        通过将ResNet-50替换为ResNet-101和ResNext-101 [38],在更强大的骨干网络上的结果如表3所示。对于DCNv1的条目,conv5阶段中的常规3×3卷积层被可变形对应物替代,对齐的RoI池化层被可变形RoI池化替代。对于DCNv2的条目,conv3-conv5阶段的所有3×3卷积层都是调制可变形卷积,而可变形RoI池化也被使用,受到RCNN特征模仿损失的监督。发现DCNv2在所有网络骨干上都明显优于常规ConvNet和DCNv1。

表3. 在COCO 2017测试-开发集上,DCNv2、DCNv1和常规ConvNets在不同的骨干网络上的结果。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值