RT-DETR:DETRs Beat YOLOs on Real-time Object Detection(CVPR2024)



原文
哇撒

Abstract

作者观察到NMS对YOLOs的速度和准确性有负面影响。(NMS进行后处理,不仅降低了推理速度,而且引入了导致速度和精度不稳定的超参数)。并且不同的场景对召回率和准确率的重视程度不同,需要仔细选择合适的NMS阈值,这阻碍了实时检测器的发展
DETRs为消除NMS提供了另一种选择,然而,高昂的计算成本限制了它们的实用性,阻碍了它们充分发挥排除NMS的优势

在本文中,作者提出了实时检测转换器(RT-DETR)解决NMS带来的影响,这是所知的第一个实时端到端对象检测器

RT-DETR包括两个关键增强:快速处理多尺度特征的高效混合编码器,以及提高初始对象查询质量的最小不确定性查询选择
并且RT-DETR支持灵活的速度调整,无需重新训练,消除了两个NMS阈值带来的不便,促进了其实际应用

RT-DETR-R50 /R101在COCO上实现53.1% / 54.3%的AP,在T4 GPU上实现108 / 74 FPS,在速度和精度方面都优于以前先进的yolo。此外,RT-DETR-R50在精度上比DINO-R50高出2.2%,在FPS上高出约21倍。使用Objects365进行预训练后,RT- der - r50 / R101的AP达到55.3% / 56.2%

在小目标上表现并不良好

Method

Model Overview


把来自骨干网最后三个阶段的特征作为输入到编码器中,高效的混合编码器通过基于注意力的尺度内特征交互(AIFI)和基于CNN的跨尺度特征融合(CCFF)将多尺度特征转换为图像特征序列。然后,不确定性最小查询选择选择固定数量的编码器特征作为解码器的初始对象查询。最后,带有辅助预测头的解码器迭代优化对象查询以生成类别和盒子

Efficient Hybrid Encoder

Computational bottleneck analysis

多尺度特征的引入加速了训练收敛,提高了性能。然而,虽然可变形注意力降低了计算成本,但序列长度的急剧增加仍然使编码器成为计算瓶颈。直观上,从底层特征中提取包含对象丰富语义信息的高层特征,使得在串联的多尺度特征上进行特征交互变得多余
因此,作者设计了一组不同类型编码器的变体,以证明同时在尺度内和跨尺度的特征交互是低效的

A→B:变体B在A中插入一个单尺度Transformer编码器,A使用一层Transformer模块。多尺度特征共享编码器进行尺度内特征交互,然后拼接作为输出。
B→C:变体C在B的基础上引入跨尺度特征融合,并将拼接后的特征馈送到多尺度Transformer编码器中,同时进行尺度内和跨尺度特征交互
C→D:变体D将尺度内相互作用和跨尺度融合解耦,前者采用单尺度Transformer编码器,后者采用PANet风格结构
D→E:变体E在D的基础上增强尺度内相互作用和跨尺度融合,采用作者设计的高效混合编码器

Hybrid design

基于上述分析,作者提出了一种高效的混合编码器,该编码器由两个模块组成,即基于注意力的尺度内特征交互(AIFI)和基于CNN的跨尺度特征融合(CCFF)
AIFI通过使用单尺度Transformer编码器仅在S5上执行尺度内交互,进一步降低了基于变量D的计算成本。其原因是将自关注操作应用于语义概念丰富的高级特征,捕获了概念实体之间的联系,便于后续模块对对象的定位和识别。然而,由于缺乏语义概念和与高层特征交互的重复和混淆的风险,低级特征的尺度内交互是不必要的(实验证实:DS5不仅显著降低了延迟(快35%),而且提高了准确率(高出0.4%)
CCFF基于跨尺度融合模块进行优化,该模块在融合路径中插入多个由卷积层组成的融合块。融合块的作用是将两个相邻的尺度特征融合为一个新的特征

融合块包含2个1 × 1的卷积来调整通道数,使用由RepConv组成的N个repblock进行特征融合,通过元素添加对两路输出进行融合。混合编码器的计算公式为:

表示将平坦特征的形状恢复为与S5相同的形状

Uncertainty-minimal Query Selection

作者提出了不确定性最小查询选择方案,该方案显式地构建和优化认知不确定性来建模编码器特征的联合潜变量,从而为解码器提供高质量的查询
具体来说,特征不确定性U定义为Eq.(2)中定位P和分类C的预测分布之间的差异。为了最小化查询的不确定性,作者将不确定性整合到Eq.(3)中基于梯度优化的损失函数中
y´和y表示预测和基础真值,y´= {c´,b´},c´和b´分别表示类别和边界框,X´表示编码器特征

紫色点和绿色点分别表示从最小不确定性查询选择和普通查询选择训练的模型中选择的特征

散点图最显著的特点是紫色的点集中在图的右上方,而绿色的点集中在右下方。这表明最小不确定性查询选择产生更多高质量的编码特征

Scaled RT-DETR

RT-DETR还支持灵活的缩放
具体来说,对于混合编码器,作者通过调整嵌入维度和通道数量来控制宽度,通过调整Transformer层和repblock的数量来控制深度
解码器的宽度和深度可以通过操纵对象查询和解码器层的数量来控制。此外,RT-DETR的速度支持灵活调整,通过调整解码器层数。并且还观察到,在最后去除几个解码器层对精度的影响很小,但大大提高了推理速度。

  • 24
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值