【目标检测论文阅读笔记】Dynamic Head: Unifying Object Detection Heads with Attentions

最新推荐文章于 2025-01-08 01:00:00 发布

YoooooL_

最新推荐文章于 2025-01-08 01:00:00 发布

阅读量2.3k

点赞数 2

分类专栏：论文阅读笔记文章标签：目标检测论文阅读笔记

本文链接：https://blog.csdn.net/YoooooL_/article/details/130415964

版权

本文介绍了目标检测中统一尺度、空间和任务感知的新方法——动态头部（DyHead），通过尺度感知、空间感知和任务感知注意力模块提升目标检测头的表示能力。该框架无需增加计算开销，且能显著提高现有检测器性能，例如在COCO基准测试上达到54.0% AP。动态头部适用于不同类型的检测器，包括单阶段和两阶段检测器，并与最先进的方法如EfficientDet和Transformer主干相比，表现出更高的效率和性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Abstract

在目标检测中结合定位和分类的复杂性导致了方法的蓬勃发展。以前的工作试图提高各种目标检测头的性能，但未能提出统一的观点。在本文中，我们提出了一种新颖的动态头部框架 来统一目标检测头部和注意力。通过在用于尺度感知的特征级别之间、用于空间感知的空间位置之间以及用于任务感知的输出通道内 连贯地结合多个自注意力机制，所提出的方法显著提高了目标检测头的表示能力，而无需任何计算开销。进一步的实验证明了所提出的动态头部在 COCO 基准测试中的有效性和效率。借助标准的 ResNeXt-101DCN 骨干网，我们大大提高了流行目标检测器的性能，并在 54.0 AP 上实现了最新的技术水平。此外，借助最新的transformer主干和额外数据，我们可以将当前最好的 COCO 结果推向 60.6 AP 的新记录。

该代码将在 https://github.com/microsoft/DynamicHead 上发布。

1. Introduction

目标检测是在计算机视觉应用中回答“什么物体位于何处”的问题。在深度学习时代，几乎所有现代目标检测器 [11、23、12、35、28、31、33] 都共享相同的范例——用于特征提取的骨干和用于定位和分类任务的头部。如何提高目标检测头的性能已成为现有目标检测工作中的一个关键问题。

开发一个好的目标检测头的挑战可以概括为三类。首先，头部应该具有尺度感知能力，因为具有截然不同尺度的多个对象通常会共存于一幅图像中。其次，头部应该具有空间感知能力，因为在不同的视角下，物体通常会以截然不同的形状、旋转和位置出现。第三，头部需要有任务感知能力，因为对象可以有各种表示（例如，边界框 [12]、中心 [28] 和角点 [33]），它们拥有完全不同的目标和约束。我们发现最近的研究 [12、35、28、31、33] 只关注以各种方式解决上述问题之一。如何开发一个可以同时解决所有这些问题的统一头部仍然是一个悬而未决的问题。

在本文中，我们提出了一种新的检测头，称为动态头，以统一尺度感知、空间感知和任务感知。如果我们将主干的输出（即检测头的输入）视为 维度为 level × space × channel 的 3 维张量，我们发现这样一个统一的 head 可以被视为注意力学习问题。一个直观的解决方案是在这个张量上构建一个完整的自注意力机制。然而，优化问题太难解决，并且计算成本是负担不起的。

相反，我们可以在特征的每个特定维度上分别部署注意力机制，即水平、空间和通道。 尺度感知注意力模块只部署在层级level维度上。它学习各种语义级别的相对重要性，以根据其规模在适当级别为单个对象增强特征。空间感知注意力模块部署在空间维度（即高度×宽度）上。它在空间位置学习连贯的判别表示。任务感知注意力模块部署在通道上。它根据来自目标的不同卷积核响应，引导不同的特征通道分别支持不同的任务（例如，分类、框回归和中心/关键点学习）。

通过这种方式，我们明确地为检测头实现了统一的注意力机制。尽管 这些注意力机制分别应用于特征张量的不同维度，但它们的性能可以相互补充。对 MS-COCO 基准的大量实验证明了我们方法的有效性。它为学习更好的表示提供了巨大的潜力，可用于以 1.2% ∼ 3.2% 的 AP 增益改进各种目标检测模型。使用标准的 ResNeXt101-DCN 主干，所提出的方法在 COCO 上实现了最先进的 54.0% AP。此外，与 EffcientDet [27] 和 SpineNet [8] 相比，动态头使用 1/20 的训练时间，但性能更好。此外，借助最新的 transformer 骨干和来自自训练的额外数据，我们可以将当前最好的 COCO 结果推向 60.6 AP 的新记录（详见附录）。

2. Related Work

最近的研究侧重于从不同的角度改进目标检测器：尺度感知、空间感知和任务感知。

Scale-awareness 尺度感知.

许多研究都认同尺度感知在目标检测中的重要性，因为尺度差异很大的物体通常在自然图像中共存。早期的工作已经证明了利用图像金字塔方法 [6、24、25] 进行多尺度训练的重要性。提出了特征金字塔 [15]，而不是图像金字塔，通过连接下采样卷积特征的金字塔来提高效率，并已成为现代目标检测器中的标准组件。然而，

最低0.47元/天解锁文章