ECCV 2024 | DQ-DETR:第一个针对微小目标检测的DETR类模型

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号:CVer111,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

1447c050310fb33c2766d2dcbaaf96fe.png

转载自:遥感与深度学习

论文介绍

题目:DQ-DETR: DETR with Dynamic Query for Tiny Object Detection

会议:The European Conference on Computer Vision 2024 (ECCV) 

论文:http://arxiv.org/abs/2404.03507

代码:https://github.com/Katie0723/DQ-DETR (将发布)

年份:2024

871792809e274a2b22ac7e2864890637.png

创新点

DQ-DETR 针对现有的基于DETR的物体检测方法在微小物体检测中的不足,提出了三大创新模块:

  • 类别计数模块(Categorical Counting Module):该模块根据图片中物体数量的分类来动态调整查询数量,解决了不同图片中物体数量不平衡的问题。

  • 计数引导的特征增强(Counting-Guided Feature Enhancement):通过与密度图结合增强微小物体的空间信息,从而提高对微小物体的检测能力。

  • 动态查询选择模块(Dynamic Query Selection):根据图像中的物体密度动态调整查询的数量和位置,减少稀疏图像中的假阳性和密集图像中的漏检问题。

数据

1. AI-TOD-V2 数据集

AI-TOD-V2是一个航空图像数据集,用于检测微小物体。

  • 图像数量:该数据集包含28,036张高分辨率航空图像。

  • 标注数量:数据集中共有752,745个物体实例标注。

  • 物体尺寸:平均尺寸为12.7像素。86%的物体尺寸小于16像素,最大物体尺寸不超过64像素。

  • 物体分布:每张图像中的物体数量差异很大,从1个到2667个不等,平均每张图像有24.64个物体,标准差为63.94。数据集中存在大量的稀疏图像和密集图像,这对检测算法提出了挑战。

  • 数据集划分:数据集分为训练集(11,214张图像),验证集(2,804张图像)和测试集(14,018张图像)。

2. VisDrone 数据集

VisDrone数据集包含无人机拍摄的图像,用于评估算法在无人机视角下的目标检测能力。

  • 图像数量:数据集中共有14,018张图像。

  • 图像尺寸:图像大小为2000×1500像素,较高的分辨率确保了捕捉更多细节。

  • 标注数量:数据集中的图像包含10种类别的物体标注,包括行人、车辆、单车等。每个类别的物体数量各不相同,既有稀疏的场景,也有非常拥挤的场景。

  • 物体分布:每张图像中的物体数量也差异很大,平均每张图像有40.7个物体,标准差为46.41。

  • 数据集划分:该数据集分为训练集(6,471张图像)、验证集(548张图像)和测试集(3,190张图像)。

3. COCO 数据集

COCO(Common Objects in Context)是一个通用物体检测数据集,广泛用于目标检测任务的基准测试。本文在COCO数据集上进行了额外的实验,以验证DQ-DETR的泛化能力。

方法

总体结构

  • CNN骨干网络:用于提取多尺度特征。

  • Transformer编码器和解码器:Transformer用于全局特征建模,适用于捕捉图像中的长距离依赖关系。

  • 三个关键模块:

  • 类别计数模块(Categorical Counting Module,CCM)

  • 计数引导的特征增强模块(Counting-Guided Feature Enhancement,CGFE)

  • 动态查询选择模块(Dynamic Query Selection)

9e211511c3bb40dfdf17606983af382a.png

5633ab8313044bfc0803c4dfa3999516.png

1. 类别计数模块(Categorical Counting Module)

该模块用于解决不同图像中物体数量不平衡的问题。具体来说,通过对图像中物体数量的估计,来调整Transformer解码器中使用的查询数量。

主要步骤:
  • 密度提取器:使用扩张卷积从Transformer编码器输出的最高分辨率特征图中生成一个密度图。这个密度图包含了关于图像中物体数量的相关信息,特别是对微小物体的检测尤为重要。

  • 物体计数分类:通过分类头将物体数量分为四个等级(N ≤ 10, 10 < N ≤ 100, 100 < N ≤ 500, N > 500),每个等级对应不同的查询数量。与传统的物体计数方法不同,DQ-DETR没有直接回归物体数量,而是通过分类将物体数量划分为离散的等级。这种分类方法更适合处理AI-TOD-V2这样物体数量差异较大的数据集。

2. 计数引导的特征增强模块(Counting-Guided Feature Enhancement,CGFE)

该模块通过密度图和视觉特征的结合,增强微小物体的空间信息。主要目的是增强对前景物体的关注,特别是在处理微小物体时,确保Transformer解码器能够更准确地定位它们。

  • 空间注意力(Spatial Attention):将密度图和多尺度视觉特征进行融合,通过计算空间交叉注意力图,生成一个能强调前景物体的空间权重图。这个空间权重图能够增强图像中重要区域的特征,使其更适合检测微小物体。

  • 通道注意力(Channel Attention):在空间注意力的基础上,进一步应用通道注意力来强化特征图的通道维度。通过对不同通道的关系建模,进一步提升微小物体的特征表达能力。

  • 特征增强:将增强后的视觉特征用于改善查询的内容和位置信息。

3. 动态查询选择模块(Dynamic Query Selection)

该模块通过动态调整Transformer解码器中的查询数量和查询位置,使模型能够根据图像中的物体密度自适应地处理稀疏或密集的场景。

  • 查询数量调整:根据类别计数模块的输出,动态调整解码器中查询的数量。对于物体较少的图像,使用较少的查询数量(例如K=300);对于物体较多的图像,使用更多的查询数量(例如K=1500)。这种动态调整能够有效避免在稀疏图像中引入过多的假阳性,以及在密集图像中漏检大量物体。

  • 查询内容和位置增强:DQ-DETR的查询不仅仅是固定的嵌入向量,它们的内容和位置信息也会根据前述特征增强模块的输出进行动态更新。特别是,位置查询信息被表示为4D锚框(x, y, w, h),这些锚框提供了物体区域的位置信息,并通过偏置调整进一步优化查询的位置。

4. 总体损失函数

  • 匈牙利匹配损失:结合了L1损失和广义IoU(GIoU)损失,用于优化边界框的回归任务。同时还采用了Focal Loss作为分类任务的损失函数。

  • 类别计数模块的损失:为了监督物体计数分类任务,采用了交叉熵损失。

  • 总体损失:包括了匈牙利匹配损失、类别计数模块的损失以及解码器的辅助损失。

5. 模型训练

  • 两阶段训练:为了减少类别计数模块误差对动态查询选择的影响,DQ-DETR采用了两阶段的训练策略。首先,单独训练类别计数模块,使其输出的计数结果稳定。然后,再引入计数引导的特征增强模块,以密度图为指导,增强视觉特征。

结果与分析

精度对比

42b95bfcbba519dfa2268810ba4ff8a0.png

3721cf4ae4e18e8f8456561f85971c5c.png

b45cbec4d63e8b17767fb82799271a79.png

可视化

03d5ac1c876b78ed5dc873d5e14918b6.png

更多图表分析可见原文

 
 

何恺明在MIT授课的课件PPT下载

 
 

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

 
 
扫描下方二维码,或者添加微信号:CVer111,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer111,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值