【文献阅读10】Scale-Aware Trident Networks for Object Detection-用于目标检测的尺度感知三叉戟网络

最新推荐文章于 2024-08-18 10:29:28 发布

Mr小米周

最新推荐文章于 2024-08-18 10:29:28 发布

阅读量1.4k

点赞数 1

分类专栏：文献阅读计算机视觉

原文链接：https://arxiv.org/abs/1901.01892

版权

计算机视觉同时被 2 个专栏收录

17 篇文章 3 订阅

订阅专栏

文献阅读

8 篇文章 4 订阅

订阅专栏

【文献阅读10】Scale-Aware Trident Networks for Object Detection-用于目标检测的尺度感知三叉戟网络

Abstract
1. Introduction
2. Related Work
3. Investigation of Receptive Field（感受野的研究）
4. Trident Network（三叉戟网络）
5. Experiments
6. Conclusion

本博客仅作阅读学习记录，不作他用。

文章名称：Scale-Aware Trident Networks for Object Detection
文章地址：https://arxiv.org/abs/1901.01892v2
代码地址：https://git.io/fj5vR
文章作者：Yanghao Li、Y untao Chen、Naiyan Wang、Zhaoxiang Zhang
发表时间： 20 Aug 2019

Abstract

尺度变化是目标检测的关键挑战之一。提出了一种新的三叉戟网络(Trident Network)，旨在生成具有统一表示能力的特定尺寸特征图。

构建了一个并行的多分支架构，其中每个分支共享相同的转换参数，但具有不同的感受野。
采用一种尺度感知训练方案，通过采样适当尺度的对象实例来特殊化每个分支进行训练。

在COCO数据集上，作者的带有ResNet-101主干的TridentNet实现了48.4 mAP的最先进的单模型结果。

1. Introduction

目标实例的尺度可能在很大范围内变化，这阻碍了检测器，尤其是那些非常小或非常大的目标。

为了弥补大尺度变化，现有方法有：

multi-scale image pyramids-多尺度图像金字塔：手工特征方法与深度卷积网络都很流行。图1（a）SNIP提出有选择地在每个图像比例中训练适当大小的对象。但推理速度慢使其不使用实际应用。
FPN特征金字塔网络。图1（b）

本文，提出了一种新的网络结构来适应不同的尺度，而不是像图像金字塔那样输入多尺度的输入。特别是，使用建议的三叉戟区块创建了多个特定尺度的特征图，如图1©所示。
作者给出了感受野在尺度变化中的作用的研究结果。
提出了一种新的三叉戟网络来处理目标检测中的尺度变化问题。通过多分支结构和比例感知训练，TridentNet可以生成具有统一表示能力的特定比例特征图。
提出了一种快速近似法，即三叉戟网快速近似法，通过权重共享三叉戟块设计，只有一个主要分支，因此在推理过程中不会引入额外的参数和计算成本。
提出的方法使用单一模型和ResNet-101主干在COCO数据集上实现了48.4的mAP。

2. Related Work

Deep Object Detectors（深度目标检测器）

two-stage detection methods：
R-CNN、SPPNet、 Fast R-CNN、Faster R-CNN、 R-
FCN、R-FCN、Light-Head R-CNN

one-stage detection methods：
YOLO、SSD、DSSD、RefineDet

Methods for handling scale variation（处理尺度变化的方法）

multi-scale image pyramid
SNIP、SNIPER
Hyper-Net、ION
SSD、MS-CNN
TDM、 FPN

PANet：通过额外的自下而上的路径增强增强了FPN的特征层次结构，并提出了自适应特征池来聚合所有级别的特征，以实现更好的预测。

作者提出的三叉戟网络不是使用不同层次的特征，而是通过多个并行分支生成特定尺度的特征，从而赋予该网络对不同尺度的目标相同的表示能力。

Dilated convolution（膨胀/空洞卷积）

【链接】膨胀卷积—参考这篇博客
过在稀疏采样的位置执行卷积来放大具有原始权重的卷积核，从而在没有额外成本的情况下增加感受野大小。扩张卷积已广泛用于语义分割，以结合大尺度的上下文信息。

DetNet设计了一个特定的检测主干网络，以保持空间分辨率，并使用扩张卷积扩大感受野。

Deformable convolution（可变形卷积）通过自适应地学习采样位置进一步推广了扩张卷积。

在作者的多分支结构中，采用了具有不同扩张率的扩张卷积，以适应不同尺度对象的感受野。

3. Investigation of Receptive Field（感受野的研究）

主干网络的几个设计因素可能会影响目标检测器的性能，包括下采样速率、网络深度和感受野。
已有的研究工作表明，下采样速率、网络深度的影响是直接的：具有低下采样速率的更深的网络可能会增加复杂性，但总体上有利于检测任务。
据作者所知，截止文章发表前，20 Aug 2019，还未有人单独研究感受野的影响。

为了研究对不同尺度物体检测的影响：

使用了主干网络的扩展变体(dilated variants)来替代一些卷积。
使用不同的dilation rates 来控制网络的感受野。

具有扩张率d_S的扩张卷积在连续的滤波器值之间插入d_S1零，在不增加参数和计算数量的情况下扩大卷积核大小。
举例，一个 dilated 3×3卷积可以具有与内核大小为3+2(d_s-1)的卷积相同的感受野。假设当前特征图的总步距为s，则k扩张率d_S的扩展卷积可使网络的感受野增加2(d_S-1)s。因此，如果我们用扩张率d_S来修改n层j卷积层，则感受野可增加2(d_S-1)sn。
在这里插入图片描述
作者使用Faster R-CNN 检测器进行试点实验，在COCO 数据集上使用ResNet-C4主干。结果分别在所有对象和小、中和大尺寸的对象上的COCO style mmAP中体现。
使用ResNet-50和ResNet-101作为主干网络，并使3×3卷积的dilated rate d_S在1到3之间变化，用于conv 4阶段中的残差块。

表1总结了结果。我们可以发现，随着感受野的增加(更大的扩张率)，探测器在小物体上的性能在ResNet-50和ResNet-101上都持续下降。而对于大型物体，探测器受益于感受野的增加。上述发现表明:

在不同尺度的物体上的表现受网络感受野的影响。最合适的感受野与物体的尺度密切相关。
虽然ResNet-101在COCO中有足够大的理论感受野来覆盖大物体(大于96×96的分辨率)，但当放大膨胀率时，大物体的性能仍然可以得到改善，即有效感受野小于理论感受野。我们假设探测网络的有效感受野需要在大小物体之间保持平衡。增加扩张率通过强调大物体来扩大有效感受野，从而损害小物体的性能。

4. Trident Network（三叉戟网络）

在这一节中，描述了作者提出的目标检测尺度感知三叉戟网络【scale-aware Trident Net
work (TridentNet)】。提出的三叉戟网络由权重共享的三叉戟模块和一个精心设计的尺度感知训练方案组成。

4.1. Network Structure

目标是继承不同感受野尺寸对于目标检测的优点，而避免他的缺点。
Trident 结构如图2所示。
特别地，我们的方法采用单尺度图像作为输入，然后通过平行分支创建特定尺度的特征图，其中卷积共享相同的参数，但是具有不同的膨胀率。
在这里插入图片描述

Multi-branch Block 多分支模块
我们通过用提出的三叉戟块替换一些检测器主干网络中的卷积块来构建三叉戟网络。三叉戟块由多个平行分支组成，其中每个分支与原始卷积块共享相同的结构，除了膨胀率。
以ResNet为例，对于瓶颈式中的单个残差块，它由3个核大小为1×1、3×3和1×1的卷积组成，对应的三叉戟块被构造为3×3卷积的多个具有不同膨胀率的并行残差块，如图3所示。堆叠三叉戟区块使我们能够以类似于第3节的先导实验的有效方式控制不同分支的感受野。通常，我们用三叉戟块替换主干网络最后阶段的块，因为更大的步幅会导致所需感受野的更大差异。详细的设计选择可参考第5.2节。
在这里插入图片描述
Weight sharing among branches 分支之间的权重分配
我们的多分支三叉戟模块的一个直接问题是，它引入了几倍可能导致过度拟合的参数。幸运的是，不同的分支共享相同的结构(除了扩张率)，因此权重共享变得简单明了。在这项工作中，我们共享所有分支及其相关的RPN和R-CNN头的权重，并且只改变每个分支的扩张率。
权重共享的好处有三。

它减少了参数的数量，使得TridentNet与原探测器相比不需要额外的参数。
不同尺度的物体应该以相同的表征力经历统一的变换，这也与我们的动机相呼应。
最后一点是，可以在来自所有分支的更多对象样本上训练变换参数。换句话说，相同的参数在不同的感受野下针对不同的尺度范围进行训练。

4.2. Scale-aware Training Scheme（尺度感知训练计划）

所提出的三叉戟网络体系结构根据预定义的扩张率生成特定尺度的特征图。然而，表1中由尺度不匹配(例如，分支上的小对象具有太大的膨胀)引起的退化对于每个单独的分支仍然存在。因此，在不同的分支上检测不同尺度的物体是很自然的。在这里，我们提出了一种尺度感知训练方案，以提高每个分支的尺度感知，避免在不匹配的分支上训练极端尺度的对象。

与SNIP类似，我们为每个分支 $i$ 定义了一个有效范围 $l_i,u_i]$ ，在培训过程中，我们只选择其尺度落在每个分支相应有效范围内的建议和基础真值框。具体来说，对于输入图像上宽度为 $w$ 、高度为 $i$ 的感兴趣区域(RoI)(在调整大小之前)，当
$l_i \le \sqrt{wh} \le u_i$
时，它对分支 $i$ 有效。这种有尺度意识的训练方案可以在RPN和R-CNN上使用。对于RPN，我们根据不等式选择对每个分支有效的基本真值框。在锚标签分配期间。同样，我们在R-CNN的训练期间删除了每个分支的所有无效提案。

4.3. Inference and Approximation（推理和近似）

在推理过程中，我们为所有分支生成检测结果，然后过滤掉超出每个分支有效范围的框。然后，我们使用NMS或soft-NMS¹来组合多个分支的检测输出，并获得最终结果。一个具有注脚的文本。

快速推理近似三叉戟网络的一个主要缺点是由于其分支性质导致推理速度慢。这里我们提出快速三叉网络，一种在推理过程中只有一个分支的三叉网络的快速近似。对于如图2所示的三分支网络，我们使用中间分支进行推理，因为它的有效范围涵盖了大对象和小对象。这样，与标准的Faster RCNN检测器相比，三叉戟网络更快不会产生额外的时间成本。令人惊讶的是，我们发现这种近似与最初的TridentNet相比仅表现出轻微的性能下降。这可能是由于我们的权重共享策略，通过这种策略，多分支训练相当于网络内的规模扩大。在第5.3节中可以找到详细的快速三叉戟网络。

5. Experiments

在这一部分，我们在COCO数据集²上进行实验。根据³ ⁴，我们在80k个训练图像和35k个验证图像子集(trainval35k)的联合上训练模型，并在一组5k个验证图像(minival)上进行评估。我们还在一组20k测试图像上报告最终结果(test-dev)。
默认情况下，模型训练12epoch，学习率从0.02开始，在第8个和第10个时期后降低0.1倍。2X或3X的训练方案意味着相应地将总训练时期和学习速率时间表增加一倍或两倍。

5.1. Implementation Details（执行细节）

我们在MXNet 中重新实现了Faster R-CNN作为我们的基线方法。遵循其他标准检测，网络主干在ImageNet上进行了预训练。
主干、第一残差级和所有BN参数被冻结。输入图像被调整到800的短边。训练时采用随机水平翻转。默认情况下，模型在8 GPU上以批量大小16进行训练。
们采用ResNet⁵中conv4 stage的输出作为主干特征图，在基线和TridentNet中都采用conv5 stage作为R-CNN头。
如果没有特别说明，我们采用三个分支作为我们默认的TridentNet结构。
对于TridentNet中的每个分支机构，前12000/500个建议保留在NMS之前/之后，我们对128个感兴趣区域进行了抽样培训。
三个分支的扩张率分别设置为1、2和3。
在对TridentNet采用尺度感知训练方案时，我们将三个分支的有效范围分别设置为[0，90]、[30，160]和[90，∞]。

对于评估，我们报告了标准COCO评估指标平均精度(AP) 以及AP₅₀/AP₇₅。我们还报告了COCO-styte AP_s、AP_m和 AP_l 在小(小于32×32)、中(从32×32到96×96)和大(大于96×96)尺寸的物体。

5.2.Ablation Studies（消融研究）⁶

在这里插入图片描述

TridentNet的组件

首先，我们分析了TridentNet中每个组件的重要性。基线方法(表2(a))在ResNet-101和ResNet 101-Deformable主干上进行评估。然后，我们逐渐应用我们的多分支架构、权重g共享设计和尺度感知训练方案。

多分支
基于先导实验，表2(b)评估了一种获得多个感受野最佳效果的简单方法。这种多分支变体在AP上对ResNet-101(从37.9到39.0)和Resnet-101可变形(从39.9到40.5)的基线都有提升，尤其是对于大型对象(增加2.3/1.2)。这表明，即使是最简单的多分支设计也可能受益于不同的感受野。
尺度感知
表2(d)显示了基于多分支增加比例感知训练的消融结果(表2(b))。它为小对象带来了额外的改进(在ResNet-101/ResNet-101可变形的基础上增加了0.8/1.0)，但对大对象的性能有所下降。我们推测，尺度感知训练设计防止了每个分支训练极端尺度的对象，但也可能带来有效样本减少导致的每个分支的过拟合问题。
权重共享
通过在多分支(表2©)和三叉戟网络(表2(e))上应用权重分配，我们可以在两个基础网络上实现一致的改进。这证明了体重分担的有效性。它减少了参数的数量，提高了检测器的性能。在权重共享的帮助下(表2(e))，所有分支共享相同的参数，这些参数在所有尺度的对象上被完全训练，从而减轻尺度感知训练中的过拟合问题(表2(d))。

最后，TriidentNets在两个基础网络上实现了显著的改进(2.7/1.9接入点增加)。它还揭示了所提出的三叉神经网络结构与可变形卷积等方法兼容，这些方法可以自适应地调整感受野。

分支数量

我们研究了三叉神经网络中分支数目的选择。表3显示了使用一到四个分支的结果。请注意，我们在这里没有添加scaleaware训练方案，以避免为不同数量的分支精心调整有效范围。表3中的结果表明三叉戟网络持续改进从单支法(基线)增加2.7-3.4个AP。可以注意到，四个分支并没有比三个分支带来进一步的改进。因此，考虑到复杂性和性能，我们选择三个分支作为我们的默认设置。
在这里插入图片描述

三叉戟块的层级

我们对三叉戟网进行消融研究，以找到将三叉戟块放置在ResNet中的最佳阶段。表4显示了在conv2、conv3和conv4阶层中分别应用三叉戟模块的结果。相应的总步幅是4、8、16。与conv4stage相比，con v2和con v3 stage上的TridentNets比基线略有增加。这是因为con v2和con v3特征图中的步幅不够大，不足以扩大三个分支之间感受野的差异。
在这里插入图片描述

三叉戟块的数量

由于ResNet中的conv4stage有多个残差块，我们还进行消融研究，以探索TridentNet需要多少个Trident块。
这里我们用 ResNet-101 conv4上的三叉戟块替换不同数量的剩余块。图4中的结果显示，当三叉戟块的数量超过10个时，三叉戟网络的性能变得稳定。这表明，当分支之间的感受野差异足够大时，三叉戟网络相对于三叉戟区块的数量是稳健的。
在这里插入图片描述

各分支的表现

在本节中，我们将研究我们的多分支TridentNet的每个分支的性能。我们独立评估每个分支的性能，而不会将检测排除在尺度感知范围之外。不出所料，通过尺度感知训练，具有最小感受野的branch-1在小物体上获得良好的结果，branch-2在中等尺度的物体上工作良好，而具有最大感受野的branch-3在大物体上工作良好。最后，三分支法继承了三个单一分支的优点，取得了最佳效果。

5.3. Fast Inference Approximation（快速近似推理）

为了减少TridentNet的推理时间，我们提出了TridentNet Fast，它在推理过程中使用单个主分支来逼近三分支结果。如表5所示，分支-2作为主要分支的自然候选出现，因为它的规模感知范围覆盖了大多数对象。我们在表6中研究了尺度感知范围对尺度感知训练的影响。
在这里插入图片描述

如表6©所示，通过扩大主分支的尺度感知范围以包含所有尺度的物体，TridentNet Fast的性能比默认的尺度感知范围设置提高1.5个百分点。此外，扩展所有三个分支的规模感知范围可以获得40.0接入点的最佳性能，接近40.6接入点的原始三叉戟网络结果。我们假设这可能是由于体重分担策略。因为主要分支的权重在其他分支上共享，所以在尺度不可知的方案中训练所有分支相当于执行网络内多尺度增强。

5.4. Comparison with State-of-the-Arts（与最新技术的比较）

在这一节中，我们在COCO testdev集上评估TridentNet，并与其他最先进的方法进行比较。在这里，我们在表7中报告了不同设置下我们的方法的结果。TridentNet，就是在2×训练方案中，将我们的方法直接应用到有ResNet-101骨干的fast R-CNN上，达到42.7 AP，没有任何花哨的东西。为了与SNIP和SNIPER进行公平的比较，我们采用了多尺度训练、软NMS、可变形卷积、大批量BN和3×训练方案在TridentNet上进行训练，得到了TridentNet*。它给出的AP为46.8，在单尺度测试环境下已经超过了基于图像金字塔的SNIP和SNIPER。如果我们采用图像金字塔进行测试，它将三叉戟网络的结果进一步提高到48.4 AP。据我们所知，对于带有ResNet-101主干的单个模型，我们的结果是最先进方法中的最佳条目。此外，三叉戟快速+图像金字塔达到47.6接入点。

与其他尺度处理方法相比。

在本节中，我们将三叉戟网络与其他流行的尺度处理方法进行比较，如FPN和ASPP。FPN是处理检测中尺度变化的事实模型。ASPP是三叉戟网络的一个特例，它只有一个三叉戟块，三个分支的扩张率设置为(6，12，18)，然后是特征融合算子。为了与FPN进行公平比较，我们在本节中采用了2fc机头而不是conv5头。表8比较了相同训练设置下的这些方法。
在这里插入图片描述
TridentNet 提升很大，在所有尺度上超过其他方法。它显示了由TridentNet生成的具有相同参数集的尺度尺特定特征图的有效性。此外，TridentNet Fast实现了41.0 AP，比基线提高了1.2 AP，没有增加计算成本。

6. Conclusion

本文提出了一种简单的目标检测方法——三叉戟网络，用于构建具有统一表征能力的网络尺度特征图。我们的多分支架构采用了规模感知培训方案，以使每个分支具备相应规模的专业能力。带有主分支的快速推理方法使TridentNet在没有任何额外参数和计算的情况下，比基线方法实现了显著的改进。

Navaneeth Bodla, Bharat Singh, Rama Chellappa, and Larry S Davis. Soft-NMS-improving object detection with one line of code. In ICCV, 2017. ↩︎
Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays,Pietro Perona, Deva Ramanan, Piotr Dollár, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In ECCV, 2014. ↩︎
Sean Bell, C Lawrence Zitnick, Kavita Bala, and Ross Girshick. Inside-outside net: Detecting objects in context with
skip pooling and recurrent neural networks. In CVPR, 2016. ↩︎
Tsung-Yi Lin, Piotr Dollár, Ross B Girshick, Kaiming He,Bharath Hariharan, and Serge J Belongie. Feature pyramid networks for object detection. In CVPR, 2017. ↩︎
Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.Deep residual learning for image recognition. In CVPR,2016. ↩︎
什么是 ablation study？ - SleepyBag的回答 - 知乎 ↩︎