DCNv2:Deformable ConvNets v2: More Deformable, Better Results——可变形卷积网络 v2:更多的可变形性,更好的结果

这篇文章介绍了可变形卷积网络v2(DCNv2),这是对原始可变形卷积网络(DCNv1)的改进版本。主要内容总结如下:

  1. 背景与动机

    • 可变形卷积网络(DCNv1)通过引入可变形卷积和可变形RoI池化模块,能够适应物体的几何变化,显著提升了目标检测和实例分割的性能。

    • 然而,DCNv1的空间支持区域有时会超出感兴趣区域,导致特征受到无关图像内容的影响。

  2. 改进点

    • 增强的可变形建模:DCNv2在更多的卷积层中引入可变形卷积模块,并增加了调制机制,允许网络不仅调整采样位置,还能调整每个采样点的特征幅度,从而更精确地控制空间支持区域。

    • R-CNN特征模仿:为了帮助网络更好地聚焦于感兴趣区域,DCNv2引入了特征模仿损失,通过模仿R-CNN的特征来指导训练,使网络学习到更聚焦的特征表示。

  3. 实验与结果

    • 在COCO基准测试上,DCNv2在目标检测和实例分割任务中显著优于DCNv1和常规卷积网络。

    • 实验表明,增强的可变形建模和特征模仿机制有效提升了模型的性能,尤其是在处理复杂几何变化时。

  4. 贡献

    • DCNv2通过增强的可变形建模和特征模仿机制,显著提升了模型对几何变化的适应能力,并在多个基准测试中取得了领先的结果。

    • 代码将公开发布,便于进一步研究和应用。

DCNv2通过引入更多的可变形卷积层和调制机制,并结合R-CNN特征模仿,显著提升了模型的性能,尤其是在处理复杂几何变化时表现出色。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:

摘要
可变形卷积网络(Deformable Convolutional Networks)的卓越性能源于其能够适应物体的几何变化。通过对其自适应行为的分析,我们观察到,尽管其神经特征的空间支持比常规卷积网络更贴近物体结构,但这种支持可能会延伸到感兴趣区域之外,导致特征受到无关图像内容的影响。为了解决这个问题,我们提出了可变形卷积网络的改进版本,通过增强建模能力和更强的训练,提高了其聚焦于相关图像区域的能力。建模能力的增强通过更全面地集成可变形卷积网络中的可变形卷积模块,并引入调制机制来扩展变形建模的范围。为了有效利用这种增强的建模能力,我们通过提出的特征模仿方案来指导网络训练,帮助网络学习反映R-CNN特征的对象聚焦和分类能力的特征。通过这些改进,新版本的可变形卷积网络在原始模型的基础上取得了显著的性能提升,并在COCO基准测试中取得了领先的目标检测和实例分割结果。

1. 引言

由于尺度、姿态、视角和部分变形引起的几何变化是物体识别和检测中的主要挑战。当前最先进的方法是可变形卷积网络(DCNv1)[7],它引入了两个模块来帮助CNN建模这些变化。其中一个模块是可变形卷积,其中标准卷积的网格采样位置通过学习相对于前一层特征图的位移进行偏移。另一个模块是可变形RoI池化,其中RoI池化[15]的bin位置通过学习偏移量进行调整。将这些模块集成到神经网络中,使其能够通过调整采样和池化模式来适应物体的结构,从而显著提高目标检测的准确性。

为了更好地理解可变形卷积网络,作者通过可视化PASCAL VOC图像[10]中的偏移采样位置,展示了其感受野的变化。研究发现,激活单元的采样点往往聚集在其所在的物体周围。然而,覆盖范围并不精确,采样点会扩展到感兴趣区域之外。通过对更具挑战性的COCO数据集[28]中的图像进行更深入的空间支持分析,我们观察到这种行为更加明显。这些发现表明,学习可变形卷积的潜力更大。

在本文中,我们提出了可变形卷积网络的新版本,称为可变形卷积网络v2(DCNv2),增强了学习可变形卷积的建模能力。这种建模能力的提升体现在两个方面。首先是在网络中更广泛地使用可变形卷积层。通过为更多的卷积层配备偏移学习能力,DCNv2能够在更广泛的特征层次上控制采样。其次是可变形卷积模块中的调制机制,其中每个采样点不仅经过学习的偏移,还通过学习的特征幅度进行调制。因此,网络模块能够调整其采样的空间分布和相对影响。

为了充分利用DCNv2增强的建模能力,需要有效的训练。受神经网络知识蒸馏[1, 21]的启发,我们使用教师网络来提供训练指导。具体来说,我们使用R-CNN[16]作为教师网络。由于R-CNN是在裁剪后的图像内容上进行分类训练的网络,它学习的特征不受感兴趣区域之外的无关信息影响。为了模仿这一特性,DCNv2在训练中引入了特征模仿损失,鼓励学习与R-CNN一致的特征。通过这种方式,DCNv2获得了增强可变形采样的强大训练信号。

通过这些改进,可变形模块仍然保持轻量级,并且可以轻松集成到现有的网络架构中。具体来说,我们将DCNv2集成到Faster R-CNN[32]和Mask R-CNN[19]系统中,并使用多种骨干网络。在COCO基准测试上的大量实验表明,DCNv2在目标检测和实例分割方面相比DCNv1有显著提升。DCNv2的代码将公开发布。

2. 可变形卷积网络行为分析

2.1 空间支持可视化

为了更好地理解可变形卷积网络的行为,我们通过有效感受野[30]、有效采样位置和误差有界的显著性区域来可视化网络节点的空间支持。这三种方式提供了对节点响应的不同且互补的视角。

有效感受野:并非网络节点感受野内的所有像素对其响应的贡献都相同。这些贡献的差异通过有效感受野来表示,其值计算为节点响应相对于每个图像像素强度扰动的梯度[30]。我们使用有效感受野来检查单个像素对网络节点的相对影响,但需要注意的是,这种度量并不反映完整图像区域的结构化影响。

有效采样/ bin位置:在[7]中,为了理解可变形卷积网络的行为,可视化了(堆叠的)卷积层的采样位置和RoI池化层的采样bin。然而,这些采样位置对网络节点的相对贡献并未揭示。我们转而可视化有效采样位置,这些位置包含了这些信息,计算为网络节点相对于采样/bin位置的梯度,以理解它们的贡献强度。

误差有界的显著性区域:如果移除不影响网络节点的图像区域,节点的响应不会改变,如最近关于图像显著性的研究所证明的[40, 41, 12, 6]。基于这一特性,我们可以将节点的支持区域确定为在小的误差范围内给出与完整图像相同响应的最小图像区域。我们将其称为误差有界的显著性区域,可以通过逐步屏蔽图像部分并计算结果节点响应来找到,如附录中更详细描述的那样。误差有界的显著性区域有助于比较来自不同网络的支持区域。

2.2 可变形卷积网络的空间支持

我们分析了可变形卷积网络在目标检测中的视觉支持区域。我们使用的常规卷积网络基线由Faster R-CNN + ResNet-50[20]目标检测器组成,带有对齐的RoI池化1[19]。ResNet-50中的所有卷积层都应用于整个输入图像。conv5阶段的有效步幅从32像素减少到16像素,以增加特征图的分辨率。RPN[32]头添加在ResNet-101的conv4特征之上。在conv5特征之上,我们添加了Fast R-CNN头[15],它由对齐的RoI池化和两个全连接(fc)层组成,然后是分类和边界框回归分支。我们按照[7]中的程序将目标检测器转换为其可变形对应物。conv5阶段的三层3×3卷积被替换为可变形卷积层。此外,对齐的RoI池化层被替换为可变形RoI池化。两个网络都在COCO基准上进行训练和可视化。值得注意的是,当偏移学习率设置为零时,可变形Faster R-CNN检测器退化为带有对齐RoI池化的常规Faster R-CNN。

使用三种可视化方式,我们在图1(a)∼(b)中检查了conv5阶段最后一层节点的空间支持。[7]中分析的采样位置也显示出来。从这些可视化中,我们得出以下观察结果:

  1. 常规卷积网络可以在一定程度上建模几何变化,如空间支持相对于图像内容的变化所证明的。由于深度卷积网络的强大表示能力,网络权重被学习以适应一定程度的几何变换。

  2. 通过引入可变形卷积,网络建模几何变换的能力显著增强,即使在具有挑战性的COCO基准上也是如此。空间支持更适应图像内容,前景上的节点的支持覆盖整个物体,而背景上的节点的支持扩展到更大的上下文。然而,空间支持的范围可能不精确,前景节点的有效感受野和误差有界的显著性区域可能包括与检测无关的背景区域。

图1:常规卷积网络、DCNv1和DCNv2中conv5阶段最后一层节点的空间支持。常规卷积网络基线是Faster R-CNN + ResNet-50。在每个子图中,从上到下分别显示了有效采样位置、有效感受野和误差有界的显著性区域。(c)中省略了有效采样位置,因为它们与(b)中的相似,提供的信息有限。可视化的节点(绿点)位于小物体(左)、大物体(中)和背景(右)上。

3. 可变形卷积网络v2

3.1 增强的可变形建模

为了增强可变形卷积网络的建模能力,我们首先在网络的更多层中引入可变形卷积模块。具体来说,我们在ResNet-50的conv3-conv5阶段的所有3×3卷积层中应用可变形卷积。因此,网络中有12层可变形卷积。相比之下,[7]中仅使用了三层可变形卷积,全部在conv5阶段。[7]中观察到,对于相对简单和小规模的PASCAL VOC基准,堆叠超过三层时性能饱和。此外,COCO上的误导性偏移可视化可能阻碍了在更具挑战性的基准上进行进一步探索。在实验中,我们观察到在conv3-conv5阶段使用可变形层在COCO上的目标检测中实现了准确性和效率之间的最佳权衡。详见第5.2节。

图2. 每个RoI检测头中2fc节点的空间支持,该节点直接连接分类和边界框回归分支。可视化在常规卷积网络(ConvNet)、DCNv1和DCNv2上进行。常规卷积网络基线是Faster R-CNN + ResNet-50。在每个子图中,从上到下分别显示了有效bin位置、有效感受野和误差有界的显著性区域,除了(c)∼(e)中省略了有效bin位置,因为它们相对于(a)∼(b)中的信息提供不了更多的理解。输入的RoI(绿色框)分别位于小物体(左)、大物体(中)和背景(右)上。

3.2 调制的可变形模块

为了进一步增强可变形卷积网络在操纵空间支持区域方面的能力,引入了调制机制。通过它,可变形卷积网络模块不仅可以调整感知输入特征的偏移,还可以调制来自不同空间位置/bin的输入特征幅度。在极端情况下,模块可以通过将其特征幅度设置为零来决定不从特定位置/bin感知信号。因此,来自相应空间位置的图像内容对模块输出的影响将大大减少或没有影响。因此,调制机制为网络模块提供了另一个自由度来调整其空间支持区域。

给定一个具有K个采样位置的卷积核,让wk和pk分别表示第k个位置的权重和预定义偏移。例如,K=9和pk∈{(-1,-1),(-1,0),…,(1,1)}定义了一个扩张为1的3×3卷积核。让x(p)和y(p)分别表示输入特征图x和输出特征图y在位置p处的特征。调制的可变形卷积可以表示为:

其中Δpk和Δmk分别是第k个位置的可学习偏移和调制标量。调制标量Δmk的范围为[0,1],而Δpk是范围不受限制的实数。由于p+pk+Δpk是分数,因此在计算x(p+pk+Δpk)时应用双线性插值,如[7]中所述。Δpk和Δmk都是通过对相同的输入特征图x应用单独的卷积层获得的。该卷积层具有与当前卷积层相同的空间分辨率和扩张。输出为3K通道,其中前2K通道对应于学习的偏移{Δpk}Kk=1,剩余的K通道进一步馈送到sigmoid层以获得调制标量{Δmk}Kk=1。该单独卷积层中的核权重初始化为零。因此,Δpk和Δmk的初始值分别为0和0.5。添加的用于偏移和调制学习的卷积层的学习率设置为现有层的0.1倍。

调制的可变形RoI池化的设计类似。给定一个输入RoI,RoI池化将其划分为K个空间bin(例如7×7)。在每个bin内,应用均匀空间间隔的采样网格(例如2×2)。对网格上的采样值进行平均以计算bin输出。让Δpk和Δmk分别是第k个bin的可学习偏移和调制标量。输出bin特征y(k)计算为:

其中pkj是第k个bin中第j个网格单元的采样位置,nk表示采样的网格单元数。应用双线性插值以获得特征x(pkj+Δpk)。Δpk和Δmk的值由输入特征图上的兄弟分支生成。在该分支中,RoI池化在RoI上生成特征,然后是两个具有3K输出通道的fc层(两个fc层之间的特征维度为1024-D)。前2K通道是归一化的可学习偏移,其中与RoI的宽度和高度进行逐元素乘法以获得{Δpk}Kk=1。剩余的K通道通过sigmoid层归一化以产生{Δmk}Kk=1。fc层的权重也初始化为零。添加的用于偏移学习的fc层的学习率与现有层的相同。

3.3 R-CNN特征模仿

如图2所示,对于常规卷积网络和可变形卷积网络,每个RoI分类节点的误差有界显著性区域可以延伸到RoI之外。因此,RoI之外的图像内容可能会影响提取的特征,从而降低目标检测的最终结果。

在[5]中,作者发现冗余上下文是Faster R-CNN检测错误的可能来源。结合其他动机(例如,在分类和边界框回归分支之间共享更少的特征),作者提出结合Faster R-CNN和R-CNN的分类分数以获得最终检测分数。由于R-CNN分类分数集中在输入RoI的裁剪图像内容上,结合它们将有助于缓解冗余上下文问题并提高检测准确性。然而,组合系统速度较慢,因为Faster-RCNN和R-CNN分支都需要在训练和推理中应用。

同时,可变形卷积网络在调整空间支持区域方面非常强大。特别是对于可变形卷积网络v2,调制的可变形RoI池化模块可以简单地设置bin的调制标量,以排除冗余上下文。然而,我们在第5.3节中的实验表明,即使使用调制的可变形模块,通过标准的Faster R-CNN训练程序也无法很好地学习这种表示。我们怀疑这是因为传统的Faster R-CNN训练损失无法有效驱动这种表示的学习。需要额外的指导来引导训练。

受最近关于特征模仿[1, 21, 26]的工作的启发,我们在Deformable Faster R-CNN的每个RoI特征上引入了特征模仿损失,以强制它们与从裁剪图像中提取的R-CNN特征相似。这个辅助训练目标旨在驱动Deformable Faster R-CNN学习更像R-CNN的“聚焦”特征表示。我们注意到,基于图2中可视化的空间支持区域,聚焦特征表示可能不适用于图像背景上的负RoI。对于背景区域,可能需要考虑更多的上下文信息,以避免产生误报检测。因此,特征模仿损失仅在足够与真实物体重叠的正RoI上强制执行。

训练Deformable Faster R-CNN的网络架构如图3所示。除了Faster R-CNN网络外,还添加了一个额外的R-CNN分支用于特征模仿。给定一个用于特征模仿的RoI b,对应的图像块被裁剪并调整为224×224像素。在R-CNN分支中,骨干网络在调整大小的图像块上运行,并生成14×14空间分辨率的特征图。在特征图之上应用(调制的)可变形RoI池化层,其中输入RoI覆盖整个调整大小的图像块(左上角在(0,0),高度和宽度为224像素)。之后,应用两个1024-D的fc层,生成输入图像块的R-CNN特征表示,记为fRCNN(b)。随后是一个(C+1)路Softmax分类器,其中C表示前景类别的数量,加上一个背景类别。特征模仿损失在R-CNN特征表示fRCNN(b)和Faster R-CNN中的对应特征fFRCNN(b)之间强制执行,后者也是1024-D,由Fast R-CNN头中的2个fc层生成。特征模仿损失定义为fRCNN(b)和fFRCNN(b)之间的余弦相似度,计算为:

其中Ω表示用于特征模仿训练的RoI集合。在SGD训练中,给定一个输入图像,RPN生成的32个正区域提议被随机采样到Ω中。在R-CNN分类头上强制执行交叉熵分类损失,也在Ω中的RoI上计算。网络训练由特征模仿损失和R-CNN分类损失以及Faster R-CNN中的原始损失项驱动。两个新引入的损失项的损失权重是原始Faster R-CNN损失项的0.1倍。R-CNN和Faster R-CNN分支中相应模块之间的网络参数是共享的,包括骨干网络、(调制的)可变形RoI池化和2个fc头(两个分支中的分类头未共享)。在推理中,仅在测试图像上应用Faster R-CNN网络,而不使用辅助的R-CNN分支。因此,R-CNN特征模仿在推理中不会引入额外的计算。

4. 相关工作

变形建模是计算机视觉中的一个长期问题,在设计平移不变特征方面已经做出了巨大的努力。在深度学习时代之前,著名的工作包括尺度不变特征变换(SIFT)[29]、定向FAST和旋转BRIEF(ORB)[33]以及可变形部分模型(DPM)[11]。这些工作受到手工特征表示能力不足和它们处理的几何变换家族受限(例如仿射变换)的限制。空间变换网络(STN)[24]是第一个学习深度CNN平移不变特征的工作。它学习应用全局仿射变换来扭曲特征图,但这种变换不足以建模许多视觉任务中遇到的更复杂的几何变化。与执行全局参数变换和特征扭曲不同,可变形卷积网络通过可变形卷积和可变形RoI池化模块中的可学习偏移,以局部和密集的方式对特征图进行采样。可变形卷积网络是第一个在复杂视觉任务(例如目标检测和语义分割)中有效建模几何变换的工作,并在具有挑战性的基准上取得了成功。

我们的工作通过增强其建模能力和促进网络训练扩展了可变形卷积网络。这个新版本的可变形卷积网络在原始模型的基础上取得了显著的性能提升。

关系网络和注意力模块最初是在自然语言处理[13, 14, 3, 35]和物理系统建模[2, 37, 22, 34, 9, 31]中提出的。注意力/关系模块通过从一组元素(例如句子中的所有单词)中聚合特征来影响单个元素(例如句子中的一个单词),其中聚合权重通常基于元素之间的特征相似性定义。它们在捕捉这些任务中的长程依赖和上下文信息方面非常强大。最近,[23]和[36]的并发工作成功地将关系网络和注意力模块扩展到图像领域,分别用于建模长程对象-对象和像素-像素关系。在[18]中,提出了一个可学习的区域特征提取器,从像素-对象关系的角度统一了以前的区域特征提取模块。这些方法的一个常见问题是,聚合权重和聚合操作需要在元素之间成对计算,导致计算量大,与元素数量(例如图像中的所有像素)成二次方。我们开发的方法可以被视为一种特殊的注意力机制,其中只有稀疏的元素集具有非零聚合权重(例如,所有图像像素中的3×3像素)。被关注的元素由可学习偏移指定,聚合权重由调制机制控制。计算开销仅与元素数量成线性关系,与整个网络相比可以忽略不计(见表1)。

空间支持操纵。对于空洞卷积,通过在卷积核中填充零来扩大卷积层的空间支持[4]。填充参数是手动选择和预定的。在主动卷积[25]中,与可变形卷积网络同时,卷积核偏移通过反向传播学习。但偏移是静态模型参数,训练后固定并在不同空间位置共享。在用于目标检测的多路径网络[39]中,每个输入RoI使用多个RoI池化层以更好地利用多尺度和上下文信息。多个RoI池化层以输入RoI为中心,并具有不同的空间尺度。这些方法的一个常见问题是,空间支持由静态参数控制,不随图像内容自适应。

有效感受野和显著区域。为了更好地解释深度网络的功能,在理解哪些图像区域对网络预测贡献最大方面取得了重大进展。最近关于有效感受野[30]和显著区域[40, 41, 12, 6]的工作表明,理论感受野中只有一小部分像素对最终网络预测有显著贡献。有效支持区域由网络权重和采样位置的联合效应控制。在这里,我们利用开发的技术来更好地理解可变形卷积网络的网络行为。由此产生的观察结果指导并激励我们改进原始模型。

网络模仿和蒸馏是最近引入的用于模型加速和压缩的技术。给定一个大型教师模型,通过模仿教师模型输出或训练图像上的特征响应来训练一个紧凑的学生模型[1, 21, 26]。希望紧凑模型可以通过从大型模型中提取知识来更好地训练。在这里,我们使用特征模仿损失来帮助网络学习反映R-CNN特征的对象聚焦和分类能力的特征。获得了改进的准确性,并且可视化的空间支持证实了这种方法。

5. 实验

5.1 实验设置

我们的消融实验在COCO 2017训练集的118k图像上进行。评估在COCO 2017验证集的5k图像上进行。我们还在COCO 2017测试开发集的20k图像上评估性能,模型在COCO 2017训练和验证集的联合集上训练。使用不同框和掩码IoU下的标准平均精度分数分别测量目标检测和实例分割的准确性。

选择Faster R-CNN和Mask R-CNN作为基线系统。使用ImageNet[8]预训练的ResNet-50作为骨干。Faster R-CNN的实现与第3.3节中的相同。对于Mask R-CNN,我们遵循[19]中的实现,因此使用FPN[27]。为了将网络转换为其可变形对应物,最后一组3×3常规卷积层(在自底向上计算中接近输出)被替换为(调制的)可变形卷积层。对齐的RoI池化被替换为(调制的)可变形RoI池化。特别地,对于Mask R-CNN,具有7×7和14×14 bin的两个对齐RoI池化层被替换为具有相同bin数的两个(调制的)可变形RoI池化层。在R-CNN特征模仿中,特征模仿损失仅在RoI头上强制执行以进行分类(不包括用于掩码估计的RoI头)。对于这两个系统,超参数的选择遵循最新的Detectron[17]代码库,这里简要介绍。在训练和推理中,图像被调整大小,使较短边为800像素,并使用5个尺度和3个纵横比的锚点。在训练和推理中,分别在非最大抑制阈值为0.7时生成2k和1k区域提议。在SGD训练中,256个锚框(正负比为1:1)和512个区域提议(正负比为1:3)被采样以反向传播其梯度。在我们的实验中,网络在8个GPU上训练,每个GPU 2张图像,训练16个周期。学习率初始化为0.02,并在第10和第14个周期除以10。权重衰减和动量参数分别设置为10−4和0.9。

5.2 增强的变形建模

表1中的消融实验检查了增强变形建模的效果。使用常规CNN模块的基线在Faster R-CNN上获得了35.6%的APbbox分数,在Mask R-CNN上分别获得了37.8%和33.4%的APbbox和APmask分数。这个强大的基线与Detectron中的最新实现结果相匹配。为了获得DCNv1基线,我们按照原始可变形卷积网络论文,将conv5阶段中的最后三层3×3卷积和对齐的RoI池化层替换为其可变形对应物。这个DCNv1基线在Faster R-CNN上获得了38.2%的APbbox分数,在Mask R-CNN上分别获得了40.3%和35.0%的APbbox和APmask分数。如[7]中观察到的,可变形模块显著提高了准确性。

通过将更多的3×3常规卷积层替换为其可变形对应物,Faster R-CNN和Mask R-CNN的准确性稳步提高,当conv3-conv5阶段的卷积层被替换时,APbbox和APmask分数提高了1.5%到2.0%。通过进一步替换conv2阶段的常规卷积层,在COCO基准上没有观察到额外的改进。通过将可变形模块升级为调制的可变形模块,我们在APbbox和APmask分数上进一步获得了0.6%到1.0%的提升。总的来说,增强变形建模能力在Faster R-CNN上获得了40.8%的APbbox分数,比DCNv1基线高2.6%。在Mask R-CNN上,增强变形建模获得了42.7%的APbbox和37.0%的APmask分数,分别比DCNv1基线高2.4%和2.0%。请注意,增强变形建模所增加的参数和FLOPs相对于整个网络来说是微不足道的。

如图1(b)∼(c)所示,与DCNv1相比,增强的可变形建模的空间支持表现出更好的图像内容适应性。

5.3 R-CNN特征模仿

表2中的消融实验显示了R-CNN特征模仿设计选择的效果。在增强变形建模的基础上,R-CNN特征模仿进一步提高了Faster R-CNN和Mask R-CNN系统的APbbox和APmask分数,提高了约1%到1.6%。模仿对象前景上的正框的特征被发现特别有效,而模仿所有框或仅负框的结果要低得多。如图2(c)∼(d)所示,特征模仿可以帮助网络特征更好地聚焦于对象前景,这对正框有益。对于负框,网络倾向于利用更多的上下文信息(见图2),特征模仿不会有帮助。

我们还将R-CNN特征模仿应用于没有任何可变形层的常规卷积网络。几乎没有观察到准确性提升。如图2(e)所示,即使有辅助模仿损失,可视化的空间支持区域也没有聚焦于对象前景。这可能是因为常规卷积网络无法将特征聚焦于对象前景,因此无法学习这一点。

5.4 在更强骨干网络上的应用

表3中展示了通过将ResNet-50替换为ResNet-101和ResNext-101[38]的结果。对于DCNv1条目,conv5阶段中的常规3×3卷积层被替换为其可变形对应物,对齐的RoI池化被替换为可变形RoI池化。对于DCNv2条目,conv3-conv5阶段中的所有3×3卷积层都是调制的可变形卷积,并使用调制的可变形RoI池化,由R-CNN特征模仿损失监督。DCNv2在所有网络骨干上显著优于常规卷积网络和DCNv1。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Together_CZ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值