【目标检测论文阅读笔记】Dynamic Head: Unifying Object Detection Heads with Attentions

Abstract

        在目标检测中结合定位和分类的复杂性导致了方法的蓬勃发展。以前的工作试图提高各种目标检测头的性能,但未能提出统一的观点。在本文中,我们提出了一种新颖的动态头部框架 统一目标检测头部和注意力通过在用于尺度感知的特征级别之间用于空间感知的空间位置之间以及用于任务感知的输出通道内 连贯地结合多个自注意力机制,所提出的方法显著提高了目标检测头的表示能力,而无需任何计算开销。进一步的实验证明了所提出的动态头部在 COCO 基准测试中的有效性和效率。借助标准的 ResNeXt-101DCN 骨干网,我们大大提高了流行目标检测器的性能,并在 54.0 AP 上实现了最新的技术水平。此外,借助最新的transformer主干和额外数据,我们可以将当前最好的 COCO 结果推向 60.6 AP 的新记录。

该代码将在 https://github.com/microsoft/DynamicHead 上发布。


1. Introduction

        目标检测是在计算机视觉应用中回答“什么物体位于何处”的问题。在深度学习时代,几乎所有现代目标检测器 [11、23、12、35、28、31、33] 都共享相同的范例——用于特征提取的骨干和用于定位和分类任务的头部如何提高目标检测头的性能已成为现有目标检测工作中的一个关键问题

        开发一个好的目标检测头的挑战可以概括为三类。首先,头部应该具有尺度感知能力,因为具有截然不同尺度的多个对象通常会共存于一幅图像中。其次,头部应该具有空间感知能力,因为在不同的视角下,物体通常会以截然不同的形状、旋转和位置出现。第三,头部需要有任务感知能力,因为对象可以有各种表示(例如,边界框 [12]、中心 [28] 和角点 [33]),它们拥有完全不同的目标和约束。我们发现最近的研究 [12、35、28、31、33] 只关注以各种方式解决上述问题之一如何开发一个可以同时解决所有这些问题的统一头部仍然是一个悬而未决的问题

        在本文中,我们提出了一种新的检测头,称为动态头,以统一尺度感知、空间感知和任务感知。如果我们将主干的输出(即检测头的输入)视为 维度为 level × space × channel 的 3 维张量,我们发现这样一个统一的 head 可以被视为注意力学习问题一个直观的解决方案是在这个张量上构建一个完整的自注意力机制。然而,优化问题太难解决,并且计算成本是负担不起的

        相反,我们可以在特征的每个特定维度上分别部署注意力机制,即水平、空间和通道尺度感知注意力模块只部署在层级level维度上。它学习各种语义级别的相对重要性,以根据其规模在适当级别为单个对象增强特征。空间感知注意力模块部署在空间维度(即高度×宽度)上。它在空间位置学习连贯的判别表示。任务感知注意力模块部署在通道上。它根据来自目标的不同卷积核响应,引导不同的特征通道分别支持不同的任务(例如,分类、框回归和中心/关键点学习)。

        通过这种方式,我们明确地为检测头实现了统一的注意力机制。尽管 这些注意力机制分别应用于特征张量的不同维度,但 它们的性能可以相互补充。对 MS-COCO 基准的大量实验证明了我们方法的有效性。它为学习更好的表示提供了巨大的潜力,可用于以 1.2% ∼ 3.2% 的 AP 增益改进各种目标检测模型。使用标准的 ResNeXt101-DCN 主干,所提出的方法在 COCO 上实现了最先进的 54.0% AP。此外,与 EffcientDet [27] 和 SpineNet [8] 相比,动态头使用 1/20 的训练时间,但性能更好。此外,借助最新的 transformer 骨干和来自自训练的额外数据,我们可以将当前最好的 COCO 结果推向 60.6 AP 的新记录(详见附录)。


2. Related Work

        最近的研究侧重于从不同的角度改进目标检测器:尺度感知、空间感知 和 任务感知

Scale-awareness 尺度感知.

        许多研究都认同尺度感知在目标检测中的重要性,因为尺度差异很大的物体通常在自然图像中共存。早期的工作已经证明了利用图像金字塔方法 [6、24、25] 进行多尺度训练的重要性。提出了特征金字塔 [15],而不是图像金字塔,通过连接下采样卷积特征的金字塔来提高效率,并已成为现

  • 1
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值