文章目录
摘要
https://arxiv.org/pdf/2005.12872.pdf
本文提出一种新方法,将目标检测视为直接的集合预测问题。该方法简化了检测管道,有效地消除了对许多手工设计组件的需要,如非最大抑制程序或锚点生成,这些组件显式编码了我们关于任务的先验知识。新框架称为检测TRansformer或DETR,其主要成分是基于集合的全局损失,通过二分图匹配强制进行独特的预测,以及TRansformer编码器-解码器架构。给定一个固定的小集合的学习对象查询,DETR对对象和全局图像上下文的关系进行推理,以直接并行输出最终的预测集。与许多其他现代检测器不同,新模型在概念上很简单,不需要专门的库。在具有挑战性的COCO目标检测数据集上,DETR展示了与完善的、高度优化的Faster RCNN基线相当的准确性和运行时间性能。此外,DETR易于推广,以统一的方式产生全景分割。实验表明,它明显优于有竞争力的基线。训练代码和预训练模型可以在https://github.com/facebookresearch/detr上找到。
1、简介
目标检测的目标是预测每个感兴趣物体的一组边界框和类别标签。现代的检测器通过在大量的提议集合[37,5]、锚点[23]或窗口中心[53,46]上定义代理回归和分类问题,以间接的方式解决这一集合预测任务。它们的性能受到以下因素的显著影响:瓦解近似重复预测的后处理步骤