DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection(ICLR2023补)

DINO提出了一种改进的端到端目标检测器,通过对比去噪训练、混合查询选择和向前看两次策略,显著提升了DETR的性能和效率,尤其在COCO数据集上表现优异。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >



很好
源代码

Abstract

我们提出了DINO(带改进去噪锚盒的DETR),一种最先进的端到端目标检测器。DINO通过使用对比方法进行去噪训练,使用混合查询选择方法进行锚点初始化,使用向前看两次方案进行框预测,在性能和效率上都比以前的类der模型有所提高。在ResNet-50骨干网和多尺度特征下,DINO在COCO上12个epoch达到49.4AP, 24个epoch达到51.3AP,与之前最好的类der模型DN-DETR相比,分别提高了+6.0AP和+2.7AP。DINO在模型大小和数据大小上都有很好的伸缩性。没有额外的功能,DINO在Objects365数据集上使用SwinL主干进行预训练后,在COCO val2017 (63.2AP)和test-dev (63.3AP)上都获得了最佳结果。与排行榜上的其他模型相比,DINO显著减小了模型大小和预训练数据大小,同时取得了更好的结果。

Introduction

目标检测是计算机视觉中的一项基本任务。经典的基于卷积的目标检测算法已经取得了显著的进展。尽管这些算法通常包括手工设计的组件,如锚点生成和非最大抑制(NMS),但它们产生了最好的检测模型,如使用HTC++[4]的DyHead[7]、Swin[23]和SwinV2[22]


作为一个类似于detr的模型,DINO包含一个主干、一个多层Transformer编码器、一个多层Transformer解码器和多个预测头。遵循DAB-DETR[21],我们将解码器中的查询表述为动态锚框,并跨解码器层逐步对其进行细化。根据DN-DETR[17],我们在Transformer解码器层中添加了地面真值标签和带有噪声的盒子,以帮助在训练过程中稳定二部匹配为了提高计算效率,我们还采用了可变形注意力[41]。
此外,我们提出了以下三种新方法
首先,为了改善一对一匹配,我们提出了一种对比去噪训练方法,即同时添加相同基础真值的正样本和负样本。将两种不同的噪声添加到同一地真值盒中后,我们将噪声较小的盒子标记为正,另一个标记为负。对比去噪训练有助于模型避免同一目标的重复输出。
其次,查询的动态an- chor盒公式将类detr模型与经典的两阶段模型联系起来。因此,我们提出了一种混合查询选择方法,该方法有助于更好地初始化查询。我们选择初始锚框作为编码器输出的位置查询,类似于[41,39]。然而,我们让内容查询像以前一样是可学习的,鼓励第一个解码器层专注于空间先验。
第三,为了利用来自后期层的精细化盒信息来帮助优化相邻早期层的参数,我们提出了一种新的向前看两次方案,使用来自后期层的梯度来校正更新后的参数

Contribution

  1. 我们设计了一种新的端到端类der目标检测器,采用了几种新技术,包括对比DN训练,混合查询选择,并对DINO模型的不同部分进行两次forward
  2. 我们进行了密集的消融研究,以验证不同设计选择在DINO中的有效性。结果表明,在ResNet-50和多尺度特征下,DINO在12个epoch下达到49.4AP,在24个epoch下达到51.3AP,明显优于之前最好的类der模型。特别是,经过12个epoch训练的DINO在小物体上表现出更明显的改进,提高了+7.5AP。
  3. 我们证明,在没有附加功能的情况下,DINO可以在公共基准测试中获得最佳性能。在使用SwinL[23]主干的Objects365[33]数据集上进行预训练后,DINO在COCO val2017 (63.2AP)和test-dev (63.3AP)基准测试上都取得了最佳结
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值