这篇文章提出了一种名为动态头(Dynamic Head)的新型目标检测头框架,旨在通过注意力机制统一目标检测中的尺度感知、空间感知和任务感知。主要内容总结如下:
-
问题背景:
-
目标检测需要同时处理定位和分类任务,现有的检测头设计通常只关注其中一个方面(如尺度、空间或任务),缺乏统一的解决方案。
-
目标检测头面临的三大挑战:尺度感知(处理不同大小的物体)、空间感知(处理不同形状和位置的物体)、任务感知(处理不同的任务,如分类、边界框回归等)。
-
-
核心思想:
-
将目标检测头的输入视为一个三维张量(
level × space × channel
),并分别在层级、空间和通道维度上应用不同的注意力机制:-
尺度感知注意力:动态融合不同尺度的特征。
-
空间感知注意力:通过可变形卷积聚焦于空间位置上的判别区域。
-
任务感知注意力:动态切换特征通道以支持不同的任务。
-
-
-
方法优势:
-
统一框架:通过结合多种注意力机制,动态头能够同时处理尺度、空间和任务感知问题。
-
高效性:动态头的设计无需额外的计算开销,且可以灵活集成到现有的目标检测框架中(如一阶段和两阶段检测器)。
-
-
实验结果:
-
在COCO基准测试中,动态头显著提升了多种目标检测器的性能,达到了新的最先进水平(54.0 AP)。
-
结合最新的Transformer骨干网络和额外数据,性能进一步提升至60.6 AP。
-
-
未来方向:
-
进一步探索如何使全注意力模型更易于学习和计算。
-
考虑更多注意力模态以进一步提升性能。
-
动态头通过统一的注意力机制,显著提升了目标检测头的表示能力,且具有高效性和灵活性,能够广泛应用于现有的目标检测框架中。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:
官方项目地址在这里。
摘要
目标检测中定位与分类的复杂性导致了多种方法的发展。以往的研究尝试通过各种方式改进目标检测头的性能,但未能提供一个统一的视角。本文提出了一种新颖的动态头框架,通过注意力机制统一目标检测头。通过在多尺度特征层之间、空间位置之间以及输出通道内连贯地结合多种自注意力机制,该方法显著提高了目标检测头的表示能力,且无需额外的计算开销。进一步的实验表明,所提出的动态头在COCO基准测试中表现出色。使用标准的ResNeXt-101-DCN骨干网络,我们在多个流行的目标检测器上大幅提升了性能,达到了54.0 AP的新水平。此外,结合最新的Transformer骨干网络和额外数据,我们可以将当前最佳的COCO结果推至60.6 AP的新纪录。
1. 引言
目标检测是回答“哪些物体位于何处”的问题。在深度学习时代,几乎所有现代目标检测器都遵循相同的范式——一个用于特征提取的骨干网络和一个用于定位与分类任务的检测头。如何提高目标检测头的性能已成为现有目标检测工作中的关键问题。
开发一个好的目标检测头面临的挑战可以总结为三类:
-
尺度感知:由于图像中通常存在多个尺度差异巨大的物体,检测头应具备尺度感知能力。
-
空间感知:物体在不同视角下可能以不同的形状、旋转和位置出现,检测头应具备空间感知能力。
-
任务感知:物体可能有多种表示形式(如边界框、中心点、角点等),检测头应具备任务感知能力。
本文提出了一种称为动态头的新型检测头,统一了尺度感知、空间感知和任务感知。我们将骨干网络的输出(即检测头的输入)视为一个三维张量,维度为level × space × channel
,并发现这种统一的检测头可以被视为一个注意力学习问题。通过分别在特征的不同维度上部署注意力机制,我们显著提升了目标检测头的表示能力。
2. 相关工作
最近的研究从多个角度改进目标检测器,主要集中在尺度感知、空间感知和任务感知三个方面。
尺度感知:许多研究强调了尺度感知在目标检测中的重要性,因为自然图像中通常存在尺度差异巨大的物体。早期工作通过图像金字塔方法进行多尺度训练,证明了其重要性。为了提高效率,特征金字塔网络(FPN)被提出,通过连接下采样的卷积特征金字塔,成为现代目标检测器的标准组件。然而,不同层级的特征通常从网络的不同深度提取,导致明显的语义差距。为了解决这一问题,[18] 提出了通过自底向上的路径增强来提升低层特征。随后,[20] 通过引入平衡采样和平衡特征金字塔进一步改进了该方法。最近,[31] 提出了一种基于改进的3D卷积的金字塔卷积,能够同时提取尺度和空间特征。
在本工作中,我们在检测头中引入了尺度感知注意力,使得不同特征层级的重要性能够根据输入自适应调整。
空间感知:以往的研究尝试通过改进空间感知来提升目标检测的语义学习能力。卷积神经网络在学习图像中的空间变换方面存在局限性 [41]。一些工作通过增加模型容量(大小)[13, 32] 或引入昂贵的数据增强 [14] 来缓解这一问题,但这导致推理和训练时的计算成本极高。后来,新的卷积算子被提出以改进空间变换的学习。[34] 提出了使用空洞卷积来从指数级扩展的感受野中聚合上下文信息。[7] 提出了可变形卷积,通过自学习的偏移量对空间位置进行采样。[37] 通过引入自学习的特征幅度重新定义了偏移量,进一步提升了其能力。
在本工作中,我们在检测头中引入了空间感知注意力,不仅对每个空间位置应用注意力,还自适应地聚合多个特征层级,以学习更具判别性的表示。
任务感知:目标检测最初起源于两阶段范式 [39, 6],首先生成物体提议,然后将这些提议分类为不同类别和背景。[23] 通过引入区域提议网络(RPN)将这两个阶段统一到一个卷积网络中,形式化了现代两阶段框架。后来,一阶段目标检测器 [22] 因其高效性而流行。[16] 通过引入任务特定的分支进一步改进了架构,在保持一阶段检测器速度的同时,超越了两阶段检测器的准确性。
最近,更多研究发现,物体的多种表示形式可能进一步提升性能。[12] 首次证明了结合边界框和分割掩码可以提升性能。[28] 提出了使用中心表示来解决目标检测问题,采用逐像素预测的方式。[35] 通过根据物体的统计特性自动选择正负样本,进一步提升了基于中心的方法的性能。[33] 将目标检测表示为关键点,简化了学习过程。[9] 通过将每个物体检测为三元组而非一对关键点,进一步提升了性能,减少了错误预测。最近,[21] 提出从每个边界的极端点提取边界特征,增强了点特征,并取得了最先进的性能。
在本工作中,我们在检测头中引入了任务感知注意力,允许在通道上部署注意力,自适应地支持不同的任务,适用于单阶段/两阶段检测器,或基于边界框/中心/关键点的检测器。
更重要的是,上述所有特性都被集成到我们设计的统一注意力机制中。据我们所知,这是第一个通用的检测头框架,朝着理解注意力在目标检测头成功中的作用迈出了一步。
3. 方法
3.1 动机
为了在统一的目标检测头中同时实现尺度感知、空间感知和任务感知,我们需要理解以往对目标检测头的改进。给定特征金字塔中不同层级的特征,我们可以通过上采样或下采样将其调整为中间层特征的尺度。基于此,我们探索了每个张量维度的作用。
-
尺度感知:不同层级的特征与物体的尺度差异相关。
-
空间感知:不同空间位置的特征与物体的几何变换相关。
-
任务感知:不同通道的特征与物体的表示形式和任务相关。
本文发现,所有这些方向都可以统一为一个高效的注意力学习问题。
3.2 动态头:通过注意力机制统一
给定特征张量 ,我们分别在层级、空间和通道维度上应用注意力机制:
-
尺度感知注意力:动态融合不同尺度的特征。
-
空间感知注意力:通过可变形卷积聚焦于空间位置上的判别区域。
-
任务感知注意力:动态切换特征通道以支持不同的任务。
通过将这些注意力机制顺序应用,我们可以有效地堆叠多个动态头块。
在本节中,我们展示了如何将动态头集成到现有检测器中,以有效提升其性能。
-
一阶段检测器:一阶段检测器通过从特征图中密集采样位置来预测物体位置,简化了检测器设计。典型的一阶段检测器(如 RetinaNet [16])由骨干网络和多个任务特定的子网络分支组成。与传统方法不同,我们仅附加一个统一的分支,利用多个注意力机制同时处理多个任务,从而简化架构并提高效率。
-
两阶段检测器:两阶段检测器利用区域提议和 ROI 池化层从骨干网络的特征金字塔中提取中间表示。为了适应这一特性,我们首先在 ROI 池化层之前应用尺度感知和空间感知注意力,然后使用任务感知注意力替换原始的全连接层。
3.4 与其他注意力机制的关系
-
可变形卷积:可变形卷积通过引入稀疏采样显著改进了传统卷积层的变换学习。虽然它很少用于检测头,但我们可以将其视为仅建模 S 子维度。我们发现,骨干网络中的可变形模块可以与动态头互补。
-
非局部网络:非局部网络通过简单的点积公式增强像素特征,融合来自不同空间位置的其他像素特征。这种行为可以视为仅建模 L×S 子维度。
-
Transformer:Transformer 通过多头全连接层学习跨注意力对应关系并融合来自不同模态的特征。这种行为可以视为仅建模 S×C 子维度。
与上述三种注意力机制不同,我们的动态头将不同维度上的注意力结合到一个统一且高效的实现中,显著提升了现有目标检测器的性能。
4. 实验
我们在 MS-COCO 数据集上评估了所提出的方法,遵循常用的设置。MS-COCO 包含 80 个类别,约 16 万张图像。数据集分为 train2017、val2017 和 test2017 子集。我们使用标准的平均精度(AP)指标报告结果。
4.1 实现细节
我们基于 Mask R-CNN 基准实现了动态头块,并使用 ATSS 框架进行训练。所有模型均在 8 个 V100 GPU 上训练。
4.2 消融实验
我们进行了一系列消融实验,证明了动态头的有效性和效率。实验表明,不同组件协同工作,显著提升了检测头的性能。
4.3 与最新技术的比较
我们与最新的目标检测方法进行了比较,结果表明动态头在 COCO 基准测试中达到了新的最先进水平。
5. 结论
本文提出了一种新颖的目标检测头,通过注意力机制统一了尺度感知、空间感知和任务感知。作为一个插件模块,动态头可以灵活地集成到任何现有的目标检测框架中,以提升其性能。未来的研究可以进一步探索如何使全注意力模型更易于学习和计算,以及如何系统地考虑更多注意力模态以进一步提升性能。