Detection Transformer (DETR)(持续更新)

1. 创新点小但是有效果,如何写论文

1.1 总体原则

Idea:
Q2: Baseline + 创新点A + 创新点B
Q3/Q4 :Baseline + 创新点A
Method:
方法分析透彻,理论充足,有自己的理论体系
Experiment:
实验丰富,分析透彻

1.2 行文方法(非原创)

1.2.1 刨根问底法

如果你提的小改进使得结果变好了,那结果变好的原因是什么?什么条件下结果能变好、什么条件下不能?提出的改进是否对领域内同类方法是通用的?这一系列问题均可以进行进一步的实验和论证。

1.2.2 移情别恋法

不在主流任务/会议期刊/数据集上做,而是换一个任务/数据集/应用,因此投到相应的会议或期刊上。这么一来,相当于你是做应用、而不是做算法的,只要写的好,就很有可能被接受。当然,前提是该领域确实存在此问题。无中生有是不可取的,反而会弄巧成拙。写作时一定要结合应用背景来写,突出对领域的贡献。

1.2.3 声东击西法

虽然实际上你就做了一点点提升和小创新,但你千万不能这么老实地说呀。而是说,你对这个A + B的两个模块背后所代表的两大思想进行了深入的分析,然后各种画图、做实验、提供结果,说明他们各自的局限,然后你再提自己的改进。这样的好处是你的视角就不是简单地发一篇paper,而是站在整个领域方法论的角度来说你的担忧。这种东西大家往往比较喜欢看、而且往往看题目和摘要就觉得非常厉害了。这类文章如果分析的好,其价值便不再是所提出的某个改进点,而是对领域全面而深刻的分析。

1.2.4 移花接木法

不说你提点,甚至不提点都是可以的。怎么做呢?很简单,针对你做的改进点,再发散一下,设计更大量的实验来对所有方法进行验证。所以这篇paper通篇没有提出任何方法,全是实验。然后你来一通分析(分析结果也大多是大家知道的东西)。但这不重要,重要的是做了实验验证了这些结论。

2. 先验知识

2.1 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

2020
paper:https://arxiv.org/pdf/2010.11929.pdf
code:https://github.com/
google-research/vision_transformer

Video:https://www.bilibili.com/video/BV15P4y137jb/?spm_id_from=333.337.search-card.all.click&vd_source=70d24ef8075054a89f6e66487ba3f2ec

虽然Transformer架构已成为自然语言处理任务的事实标准,但其在计算机视觉中的应用仍然有限。在视觉中,注意力要么与卷积网络结合使用,要么用于替换卷积网络的某些组件,同时保持其整体结构。我们表明,这种对CNN的依赖是不必要的,直接应用于图像补丁序列的纯转换器可以在图像分类任务上表现得非常好。当对大量数据进行预训练并传输到多个中型或小型图像识别基准(ImageNet、CIFAR-100、VTAB等)时,与最先进的卷积网络相比,视觉转换器(ViT)获得了出色的结果,同时需要更少的计算资源来训练。
在这里插入图片描述

2.2 End-to-End Object Detection with Transformers

2020
paper:https://arxiv.org/pdf/2005.12872.pdf
code:https://github.com/facebookresearch/detr
Video:https://www.bilibili.com/video/BV1GB4y1X72R/?spm_id_from=333.337.search-card.all.click&vd_source=70d24ef8075054a89f6e66487ba3f2ec
源码解读:https://www.bilibili.com/video/BV1sK41167w5/?spm_id_from=333.337.search-card.all.click&vd_source=70d24ef8075054a89f6e66487ba3f2ec

我们提出了一种将目标检测视为直接集合预测问题的新方法。我们的方法简化了检测管道,有效地消除了对许多手工设计的组件的需求,例如非最大抑制程序或锚点生成,这些组件明确编码我们对任务的先验知识。新框架的主要成分称为DEtection TRansformer或DETR,是基于集合的全局损失,通过二分匹配强制进行唯一预测,以及变压器编码器 - 解码器架构。给定一小组固定的学习对象查询,DETR 推理对象与全局图像上下文的关系,直接并行输出最终的预测集。与许多其他现代探测器不同,新模型在概念上很简单,不需要专门的库。DETR 在具有挑战性的 COCO 对象检测数据集上展示了与成熟且高度优化的更快 RCNN 基线相当的准确性和运行时性能。此外,DETR可以很容易地泛化,以统一的方式产生全景分割。我们表明,它的表现明显优于竞争基线。此 https URL 上提供了训练代码和预训练模型。

在这里插入图片描述

2.3 Deformable DETR: Deformable Transformers for End-to-End Object Detection

2020
paper:https://arxiv.org/abs/2010.04159
code:https://
github.com/fundamentalvision/Deformable-DETR

Video:https://www.bilibili.com/video/BV11N411y75W/?spm_id_from=333.337.search-card.all.click&vd_source=70d24ef8075054a89f6e66487ba3f2ec

DETR最近被提出来消除在物体检测中对许多手工设计组件的需求,同时展示良好的性能。然而,由于Transformer注意力模块在处理图像特征图方面的局限性,它存在收敛缓慢和特征空间分辨率有限的问题。为了缓解这些问题,我们提出了可变形DETR,其注意力模块只关注参考周围的一小部分关键采样点。可变形 DETR 可以实现比 DETR 更好的性能(尤其是在小物体上),训练周期减少 10 倍。对COCO基准的广泛实验证明了我们方法的有效性。
在这里插入图片描述
在这里插入图片描述

3. Baseline and 创新点

3. 1 SAP-DETR: Bridging the Gap Between Salient Points and Queries-Based Transformer Detector for Fast Model Convergency

SAP-DETR:弥合突出点和基于查询的变压器检测器之间的差距,以实现快速模型收敛

CVPR2023
paper:https://openaccess.thecvf.com/content/CVPR2023/papers/Liu_SAP-DETR_Bridging_the_Gap_Between_Salient_Points_and_Queries-Based_Transformer_CVPR_2023_paper.pdf
code:https://github.com/liuyang-ict/SAP-DETR

Abstract
最近,基于DETR的主流方法在加速变压器检测器收敛之前应用中心概念空间。这些方法逐渐将参考点细化到目标对象的中心,并为对象查询注入更新的中心参考信息,以实现空间条件的注意。然而,由于无歧视的空间先验,集中参考点可能会严重降低查询的显著性并混淆检测器。为了弥合显著查询的参考点和变压器检测器之间的差距,我们提出了基于点的 DETR(SAP-DETR),通过将对象检测视为从显著点到实例对象的转换。在 SAP-DETR 中,我们为每个对象查询显式初始化一个特定于查询的参考点,逐渐将它们聚合到一个实例对象中,然后预测边界框的每一侧到这些点的距离。通过从图像特征中快速关注特定于查询的参考区域和其他条件极端区域,SAP-DETR可以有效地弥合突出点与基于查询的变压器检测器之间的差距,具有显著的收敛速度。我们广泛的实验表明,SAP-DETR实现了1.4倍的收敛速度和有竞争力的性能。在标准训练方案下,SAP-DETR稳定地将SOTA方法提升到1.0 AP,基于ResNet-DC-101,SAP-DETR达到46.9 AP。
在这里插入图片描述

Server equipped
两者都在两种训练方案上进行训练:12 epoch和36 epoch方案,分别在11和30 epoch后学习率下降。所有模型都在Nvidia A100 gpu上进行训练,批处理大小分别为16和8,用于ResNet和ResNet- dc。

3. 2 Q-DETR: An Efficient Low-Bit Quantized Detection Transformer

Q-DETR:高效的低位量化检测变压器

CVPR2023
paper:https://openaccess.thecvf.com/content/CVPR2023/papers/Xu_Q-DETR_An_Efficient_Low-Bit_Quantized_Detection_Transformer_CVPR_2023_paper.pdf
code:https://github.com/SteveTsui/Q-DETR

Abstract
最近的检测转换器 (DETR) 具有高级对象检测功能,但它在资源受限设备上的应用需要大量的计算和内存资源。量化作为一种解决方案脱颖而出,它以低位参数和操作表示网络。但是,使用现有量化方法执行低位量化DETR(Q-DETR)时,性能会显著下降。通过实证分析发现,Q-DETR的瓶颈来自于查询信息失真。本文基于分销精馏(DRD)解决了这个问题。我们将DRD表述为一个双层优化问题,可以通过将信息瓶颈(IB)原理推广到Q-DEPR的学习中得出。在内部层面,我们对查询进行分布对齐,以最大化自我信息熵。在上层,我们引入了一种新的前台感知查询匹配方案,以有效地将教师信息传递给蒸馏期望的特征,以最小化条件信息熵。广泛的实验结果表明,我们的方法比现有技术表现得更好。例如,4 位 Q-DETR 理论上可以将带有 ResNet-50 主干网的 DETR 加速 6.6 倍,并实现 39.4% 的 AP,与 COCO 数据集上的实际值对应物相比,性能差距仅为 2.6%。
在这里插入图片描述

Server equipped
We run the experiments on 8 NVIDIA Tesla A100 GPUs with 80 GB memory.

3. 3 DA-DETR: Domain Adaptive Detection Transformer With Information Fusion

DA-DETR:具有信息融合功能的域自适应检测变压器

CVPR2023
paper:https://openaccess.thecvf.com/content/CVPR2023/papers/Zhang_DA-DETR_Domain_Adaptive_Detection_Transformer_With_Information_Fusion_CVPR_2023_paper.pdf
code:

Abstract
最新的检测变压器 (DETR) 通过去除传统两级物体检测器中采用的手工设计和超参数来简化物体检测管道。然而,如何在域自适应目标检测中利用简单而有效的DETR架构在很大程度上被忽视了。受独特的DETR注意力机制的启发,我们设计了DA-DETR,这是一种域自适应目标检测转换器,它引入了信息融合,以便从标记的源域有效地转移到未标记的目标域。DA-DETR推出了一种新颖的CNN-Transformer Blender(CTBlender),它巧妙地融合了CNN特征和变压器特征,以实现有效的特征对齐和跨领域的知识转移。具体来说,CTBlender利用Transformer特征在多个尺度上调制CNN特征,其中高级语义信息和低级空间信息融合在一起,以实现准确的目标识别和定位。大量实验表明,DA-DETR在多个广泛采用的域自适应基准测试中始终如一地实现了卓越的检测性能。
在这里插入图片描述
在这里插入图片描述
Server equipped

3. 4 Siamese DETR

CVPR2023
paper:https://openaccess.thecvf.com/content/CVPR2023/papers/Huang_Siamese_DETR_CVPR_2023_paper.pdf
code:https://github.com/Zx55/SiameseDETR

Abstract
最近的自监督方法主要用于使用基本模型进行表征学习,例如ResNets或ViT。它们不能轻易地转移到DETR,具有特定于任务的变压器模块。在这项工作中,我们提出了Siamese DETR,这是一种针对DENTR中变压器架构的Siamese自监督预训练方法。我们考虑通过两个互补的任务(即定位和判别)在一个新的多视图学习框架中同时学习视图不变和面向检测的表示。设计了两个自我监督的借口任务:(i)多视图区域检测旨在学习定位输入的增强视图之间的感兴趣区域,以及(ii)多视图语义判别尝试改善每个区域的对象级歧视。拟议的Siamese DETR在所有设置中使用不同的DETR变体在COCO和PASCAL VOC检测方面实现了最先进的转移性能。
在这里插入图片描述
Server equipped

3. 5 DETRs With Hybrid Matching

具有混合匹配的 DETR

CVPR2023
paper:https://openaccess.thecvf.com/content/CVPR2023/papers/Jia_DETRs_With_Hybrid_Matching_CVPR_2023_paper.pdf
code:https://github.com/HDETR

Abstract
一对一集合匹配是 DETR 建立其端到端功能的关键设计,因此对象检测不需要手工制作的 NMS(非最大抑制)来删除重复检测。这种端到端签名对于 DETR 的多功能性非常重要,并且已推广到更广泛的视觉任务。然而,我们注意到,作为正样本分配的查询很少,一对一的集合匹配显着降低了正样本的训练效果。我们提出了一种基于混合匹配方案的简单而有效的方法,该方法在训练过程中将原始的一对一匹配分支与辅助的一对多匹配分支相结合。我们的混合策略已被证明可以显著提高准确性。在推理中,仅使用原来的一对一匹配分支,从而保持了端到端的优点和与DEPR相同的推理效率。该方法被命名为H-DETR,它表明可以在广泛的视觉任务中持续改进各种代表性的DETR方法,包括Deformable-DETR,PETRv2,PETR和TransTrack等。
在这里插入图片描述
Server equipped
在12个epoch或36个epoch下训练的baseline上实现一致的增益

3. 6 Semi-DETR: Semi-Supervised Object Detection With Detection Transformers

Semi-DETR:使用检测变压器进行半监督物体检测

CVPR2023
paper:https://openaccess.thecvf.com/content/CVPR2023/html/Zhang_Semi-DETR_Semi-Supervised_Object_Detection_With_Detection_Transformers_CVPR_2023_paper.html
code:

Abstract
我们分析了基于DETR的半监督目标检测(SSOD)框架,并观察到(1)当伪真实边界框不准确时,一对一分配策略会产生错误匹配,导致训练效率低下;(2)基于DETR的检测器在输入查询与其预测输出之间缺乏确定性的对应关系,阻碍了当前SSOD方法中广泛使用的基于一致性的正则化的适用性。我们提出了Semi-DETR,这是第一个基于变压器的端到端半监督对象检测器,以解决这些问题。具体而言,我们提出了一种阶段混合匹配策略,将一对多分配和一对一分配策略相结合,以提高第一阶段的训练效率,从而为第二阶段的训练提供高质量的伪标签。此外,我们引入了一种跨视图查询一致性方法来学习不同视图的对象查询的语义特征不变性,同时避免了寻找确定性查询对应关系的需要。此外,我们提出了一个基于成本的伪标签挖掘模块,基于伪地面实况边界框的匹配成本动态挖掘更多的伪盒子,以进行一致性训练。在COCO和Pascal VOC基准数据集的所有SSOD设置上进行的广泛实验表明,我们的Semi-DETR方法明显优于所有最先进的方法。
在这里插入图片描述
Server equipped
设置批处理大小到64在8个GPU上,每个GPU 8个图像。

3. 7 DETR With Additional Global Aggregation for Cross-Domain Weakly Supervised Object Detection

CVPR2023
paper:https://openaccess.thecvf.com/content/CVPR2023/papers/Tang_DETR_With_Additional_Global_Aggregation_for_Cross-Domain_Weakly_Supervised_Object_CVPR_2023_paper.pdf
code:

Abstract
该文提出一种基于DETR的跨域弱监督目标检测(CDWSOD)方法,旨在通过弱监督使探测器从源域适应目标域。我们认为 DETR 在 CDWSOD 方面具有强大的潜力,因为它具有洞察力:DETR 中的编码器和解码器都基于注意力机制,因此能够聚合整个图像的语义。聚合结果,即图像级预测,自然可以利用弱监督进行域比对。出于这种动机,我们提出了带有附加全局聚合(DETR-GA)的DETR,这是一种CDWSOD检测器,可以同时进行“实例级+图像级”预测并利用“强+弱”监督。DETR-GA 的关键点非常简单:对于编码器/解码器,我们分别添加多个类查询/前台查询,将语义聚合到图像级预测中。我们基于查询的聚合有两个优点。首先,在编码器中,弱监督类查询能够大致定位相应的位置,并排除来自非相关区域的干扰。其次,通过我们的设计,解码器中的对象查询和前台查询在类语义上共享共识,从而使强弱监督在域对齐方面互惠互利。对四个流行的跨域基准的广泛实验表明,DETR-GA显着改善了CSWSOD并推进了技术水平(例如,PASCAL VOC - > Clipart_all数据集上的mAP为29.0%–>79.4%)。
在这里插入图片描述
Server equipped
All models are trained on 4 GPUs with AdamW optimizer.

3. 8 Lite DETR: An Interleaved Multi-Scale Encoder for Efficient DETR

Lite DETR:用于高效 DETR 的交错式多刻度编码器

CVPR2023
paper:https://openaccess.thecvf.com/content/CVPR2023/papers/Li_Lite_DETR_An_Interleaved_Multi-Scale_Encoder_for_Efficient_DETR_CVPR_2023_paper.pdf
code:https://github.com/IDEA-Research/Lite-DETR

Abstract
最近基于DEansformer(DETR)的模型获得了显着的性能。如果不在编码器中重新引入多尺度特征融合,就无法实现其成功。然而,多尺度特征中过度增加的代币,特别是约75%的低级特征,在计算上相当低效,阻碍了DETR模型的实际应用。在本文中,我们提出了Lite DETR,这是一种简单而高效的端到端目标检测框架,可以有效地将检测头的GFLOP降低60%,同时保持99%的原始性能。具体来说,我们设计了一个高效的编码器块,以交错的方式更新高级特征(对应于小分辨率特征图)和低级特征(对应于大分辨率特征图)。此外,为了更好地融合跨尺度特征,我们开发了一种键感知可变形注意力来预测更可靠的注意力权重。综合实验验证了所提Lite DETR的有效性和效率,高效的编码器策略可以在现有的基于DETR的模型中很好地推广。
在这里插入图片描述
Server equipped
GFLOPs 141

3. 9 Group DETR: Fast DETR Training with Group-Wise One-to-Many Assignment

Group DETR:通过小组一对多分配进行快速 DETR 培训

ICCV2023
paper:https://openaccess.thecvf.com/content/ICCV2023/papers/Chen_Group_DETR_Fast_DETR_Training_with_Group-Wise_One-to-Many_Assignment_ICCV_2023_paper.pdf
code:https://github.com/Atten4Vis/GroupDETR

Abstract
检测转换器 (DETR) 依赖于一对一分配,将一个真实对象分配给一个预测,无需 NMS 后处理即可进行端到端检测。众所周知,一对多赋值,将一个真实对象分配给多个预测,在更快的R-CNN和FCOS等检测方法中是成功的。虽然朴素的一对多作业不适用于 DETR,但将一对多作业应用于 DETR 培训仍然具有挑战性。 在本文中,我们介绍了组 DETR,这是一种简单而有效的 DETR 培训方法,它引入了一种用于一对多分配的分组方法。此方法涉及使用多组对象查询,在每个组中执行一对一分配,并分别执行解码器自我注意。它类似于具有自动学习的对象查询增强的数据增强。这也相当于同时训练同一架构的参数共享网络,引入更多的监督,从而改进DETR训练。推理过程与正常训练的 DETR 相同,只需要一组查询,无需任何架构修改。组 DETR 是通用的,适用于各种 DETR 变体。实验表明,群DETR显著加快了各种基于DETR的模型的训练收敛速度,提高了其性能。
在这里插入图片描述
Server equipped
The training times are measured on 8 A100 GPUs in hours.

3. 10 DETRs with Collaborative Hybrid Assignments Training

具有协作混合作业训练的 DETR

ICCV2023
paper:https://openaccess.thecvf.com/content/ICCV2023/papers/Zong_DETRs_with_Collaborative_Hybrid_Assignments_Training_ICCV_2023_paper.pdf
code:https://github.com/Sense-X/Co-DETR

Abstract
在本文中,我们观察到,在DETR中分配为正样本的查询太少,具有一对一的集合匹配会导致对编码器输出的稀疏监督,这极大地损害了编码器的判别特征学习和解码器中注意力学习的副签证。为了缓解这种情况,我们提出了一种新的协作混合分配训练方案,即Co-DETR,以从多功能标签分配方式中学习更高效和有效的基于DETR的检测器。这种新的训练方案可以通过训练由一对多标签分配(如ATSS和Faster RCNN)监督的多个并行辅助头,轻松增强编码器在端到端检测器中的学习能力。此外,我们通过从这些辅助头中提取正坐标来进行额外的自定义正查询,以提高解码器中正样本的训练效率。在推理中,这些辅助头被丢弃,因此我们的方法不会给原始探测器引入额外的参数和计算成本,同时不需要手工制作的非最大抑制(NMS)。我们进行了广泛的实验,以评估所提出的方法对DETR变体的有效性,包括DAB-DETR,可变形DETR和DINO-可变形-DETR。在COCO val上,采用Swin-L的最先进的恐龙可变形DETR的AP可以从58.5%提高到59.5%。令人惊讶的是,结合ViT-L骨干网,我们在COCO测试开发上实现了66.0%的AP,在LVIS上实现了67.9%的AP,以更少的模型尺寸明显优于以前的方法。代码可在 https://github.com/Sense-X/Co-DETR 获得。
在这里插入图片描述
Server equipped

3. 11 Decoupled DETR: Spatially Disentangling Localization and Classification for Improved End-to-End Object Detection

解耦 DETR:空间解耦定位和分类,以改进端到端目标检测

ICCV2023
paper:https://openaccess.thecvf.com/content/ICCV2023/papers/Zhang_Decoupled_DETR_Spatially_Disentangling_Localization_and_Classification_for_Improved_End-to-End_ICCV_2023_paper.pdf
code:

Abstract
DETR 的引入代表了对象检测的新范例。 但是,它的解码器使用共享查询和交叉注意力层进行分类和框定位,导致结果欠佳。我们观察到,视觉特征图中不同的感兴趣区域适合执行查询分类和框定位任务,即使是针对同一对象。突出区域为分类提供了重要信息,而它们周围的边界更有利于箱形回归。不幸的是,这两项任务之间的这种空间错位极大地阻碍了DENTR的培训。 因此,在这项工作中,我们专注于解耦DETR中的本地化和分类任务。为了实现这一目标,我们引入了一种新的设计方案,称为空间解耦DETR(SD-DETR),其中包括一个任务感知查询生成模块和解耦特征学习过程。 我们精心设计了任务感知查询初始化过程,并在解码器中划分了交叉注意力块,以允许任务感知查询匹配不同的视觉区域。 同时,我们还观察到高分类置信度和精确定位的预测错位问题存在,因此我们提出了一种对齐损失来进一步指导空间解耦的DETR训练。 通过广泛的实验,我们证明了与以前的工作相比,我们的方法在MSCOCO数据集中取得了显着的改进。例如,我们将条件 DETR 的性能提高了 4.5%。通过对这两个任务进行空间解开,我们的方法克服了错位问题,大大提高了DETR在目标检测方面的性能。
在这里插入图片描述
Server equipped
We use the AdamW optimizer and train for 50 epochs.

3. 12 DETR Does Not Need Multi-Scale or Locality Design

DETR 不需要多尺度或局部设计

ICCV2023
paper:https://openaccess.thecvf.com/content/ICCV2023/papers/Lin_DETR_Does_Not_Need_Multi-Scale_or_Locality_Design_ICCV_2023_paper.pdf
code:https:// github.com/impiga/Plain-DETR

Abstract
本文提出了一种改进的DETR检测器,它保持了“简单”的性质:使用单尺度特征图和全局交叉注意力计算,没有特定的局部性约束,与以前领先的基于DETR的检测器相反,后者将多尺度和局部性的架构感应偏差重新引入解码器。我们表明,两种简单的技术在普通设计中出奇地有效,可以弥补多尺度特征图和局部性约束的不足。第一个是添加到交叉注意力公式中的框到像素相对位置偏差(BoxRPB)项,它很好地指导每个查询关注相应的对象区域,同时还提供编码灵活性。第二种是基于掩蔽图像建模(MIM)的主干预训练,它有助于学习具有细粒度定位能力的表示,并被证明对于纠正多尺度特征图上的依赖关系至关重要。 通过结合这些技术以及培训和问题形成方面的最新进展,改进的“普通”DETR比原始DETR探测器显示出非凡的改进。通过利用 Object365 数据集进行预训练,它使用 Swin-L 主干实现了 63.9 mAP 的准确率,这与高度依赖多尺度特征图和基于区域的特征提取的最先进的检测器极具竞争力。
在这里插入图片描述
Server equipped

3. 13 FS-DETR: Few-Shot DEtection TRansformer with Prompting and without Re-Training

FS-DETR:具有提示且无需重新训练的少镜头防御模型

ICCV2023
paper:https://openaccess.thecvf.com/content/ICCV2023/html/Bulat_FS-DETR_Few-Shot_DEtection_TRansformer_with_Prompting_and_without_Re-Training_ICCV_2023_paper.html
code:

Abstract
本文是关于少镜头目标检测(FSOD)的,其中给出了一些描述新类(在训练期间未看到)的模板(示例),目标是检测其在一组图像中的所有出现。从实际角度来看,FSOD系统必须满足以下要求:(a)它必须按原样使用,不需要在测试时进行任何微调,(b)它必须能够同时处理任意数量的新对象,同时支持每个类的任意数量的示例,以及(c)它必须达到与封闭系统相当的精度。为了满足(a)-(c),在这项工作中,我们做出了以下贡献: 我们首次推出了一种基于视觉提示的简单但功能强大的少镜头检测变压器(FS-DETR),可以同时解决(a)和(b)的问题。我们的系统建立在DETR框架的基础上,基于两个关键思想对其进行扩展:(1)在测试期间将新类提供的视觉模板作为视觉提示提供,以及(2)用伪类嵌入(类似于软提示)“标记”这些提示,然后在解码器的输出中预测。重要的是,我们表明我们的系统不仅比现有方法更灵活,而且朝着满足要求(c)迈出了一步。具体来说,它比所有不需要微调的方法都要准确得多,甚至比目前最先进的基于最成熟基准的微调方法(PASCAL VOC & MSCOCO)相匹配并优于这些方法。
在这里插入图片描述
Server equipped

3. 14 Cascade-DETR: Delving into High-Quality Universal Object Detection

Cascade-DETR:深入研究高质量的通用对象检测

ICCV2023
paper:https://openaccess.thecvf.com/content/ICCV2023/html/Ye_Cascade-DETR_Delving_into_High-Quality_Universal_Object_Detection_ICCV_2023_paper.html
code:https://github.com/SysCV/cascade-detr

Abstract
一般环境中的对象定位是视觉系统的基本组成部分。虽然在COCO基准上占据主导地位,但最近基于变压器的检测方法在不同领域都没有竞争力。此外,这些方法仍然难以在复杂环境中非常准确地估计对象边界框。 我们引入了用于高质量通用对象检测的级联 DETR。我们通过提出级联注意力层来共同解决对不同领域的泛化和定位准确性,该层通过将注意力限制在前一个框预测上,明确地将以对象为中心的信息集成到检测解码器中。为了进一步提高准确性,我们还重新审视了查询的评分。我们不是依赖于分类分数,而是预测查询的预期 IoU,从而获得更完善的置信度。最后,我们介绍了一个通用对象检测基准 UDB10,其中包含来自不同领域的 10 个数据集。在推进COCO技术的同时,Cascade-DETR大幅改进了UDB10中所有数据集上基于DETR的探测器,在某些情况下甚至超过10 mAP。在严格的质量要求下,改进更加明显。
在这里插入图片描述
Server equipped
We train on 8 Nvidia GeForce RTX 3090 GPUs with total batch size of 8, and adopt two training schedules. For small datasets (less than 10k images), we train DETR-based methods for 50 epochs with a learning rate decay after 40 epochs.

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
DETRDetection Transformer)是一种基于Transformer的端到端目标检测方法,它可以将目标检测问题转化为一个无序的集合到有序集合的问题。具体来说,DETR的主要思路是将目标检测问题转化为一个基于集合的问题,即将图像中的所有对象视为一个集合,然后通过一次前向传递来直接预测所有对象的类别和位置。以下是DETR的主要原理: 1. Transformer编码器:DETR通过一个Transformer编码器将图像特征进行编码。这个编码器通常使用预训练的ResNet模型来提取图像特征,并将其通过Transformer编码器进行编码,得到一个包含全局信息的特征向量。 2. 对象查询:DETR接着通过一个对象查询,将图像中的所有对象表示为一个集合。在对象查询中,DETR通过一个可学习的对象嵌入层,将每个对象表示为一个向量,并将所有对象的向量组合成一个矩阵。 3. Transformer解码器:接下来,DETR使用一个Transformer解码器来对对象进行排序,同时将每个对象的类别和位置进行预测。在解码器中,DETR通过对对象矩阵进行多层自注意力和多头注意力,来学习对象之间的交互和关系,并对每个对象进行分类和回归预测。 4. 匈牙利匹配算法:最后,DETR使用匈牙利匹配算法来将预测的对象与真实的对象进行匹配,以计算损失并进行反向传播。 总的来说,DETR的主要思路是将目标检测问题转化为一个基于集合的问题,并使用Transformer进行端到端的学习和预测。这种方法具有高效、简单和可扩展的优点,在多个目标检测任务中都取得了很好的表现。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值