End-to-End Object Detection with Transformers(DETR论文解析)

最新推荐文章于 2024-07-18 15:53:23 发布

黄阳老师

最新推荐文章于 2024-07-18 15:53:23 发布

阅读量968

点赞数 19

文章标签：目标检测人工智能计算机视觉

本文链接：https://blog.csdn.net/qq_22583741/article/details/135123245

版权

DETR:End-to-End Object Detection with Transformers

摘要

我们提出了一种将目标检测视为直接集合预测问题的新方法。我们的方法简化了检测流程，有效地消除了许多手工设计的组件，如非极大值抑制程序或锚点生成，这些组件通常明确地编码了我们对任务的先验知识。新框架 DETR（DEtection TRansformer）的主要组成部分是一种基于集合的全局损失，通过二分图匹配强制进行唯一预测，以及一种 Transformer 编码器-解码器架构。在给定一组学到的固定小目标查询的情况下，DETR通过推理对象之间的关系和全局图像上下文直接并行输出最终的预测。这个新模型在概念上很简单，不需要专门的库，与许多其他现代检测器不同。DETR在具有挑战性的 COCO 目标检测数据集上展示了与经过充分优化的 Faster R-CNN 基线相当的准确性和运行时性能。此外，DETR可以轻松推广到以统一的方式生成全景分割。我们展示了它明显优于竞争基线。训练代码和预训练模型可在 https://github.com/facebookresearch/detr 获取。

引言

目标检测的目标是预测每个感兴趣对象的一组边界框和类别标签。现代检测器以一种间接的方式解决这个集合预测任务，通过在大量提议[37,5]、锚点[23]或窗口中心[53,46]上定义替代回归和分类问题。它们的性能受后处理步骤的影响，以折叠近似重复的预测，受锚点集设计和启发式方法的影响，这些启发式方法将目标框分配给锚点[52]。为了简化这些流程，我们提出了一种直接的集合预测方法，绕过了替代任务。这种端到端的思想在复杂的结构化预测任务中取得了显著的进展，比如机器翻译或语音识别，但在目标检测中尚未取得成功：先前的尝试[43,16,4,39]要么增加其他形式的先验知识，要么在具有挑战性的基准测试中未能与强基线竞争。本文旨在填补这一差距。

我们通过将目标检测视为直接的集合预测问题来简化训练流程。我们采用了基于transformers的编码器-解码器架构[47]，这是一种用于序列预测的流行架构。transformers的自注意机制明确地对序列中的所有成对交互进行建模，使这些架构特别适用于集合预测的特定约束，如去除重复预测。

我们的DEtection TRansformer（DETR，见图1）一次性预测所有对象，并通过一个集合损失函数进行端到端训练，该损失函数在预测对象和地面实况对象之间执行二分匹配。DETR通过舍弃多个手动设计的组件，如空间锚点或非极大值抑制，简化了检测流程。与大多数现有的检测方法不同，DETR不需要任何定制层，因此可以在包含标准CNN和tr

最低0.47元/天解锁文章

黄阳老师

关注

19
点赞
踩
19

收藏

觉得还不错? 一键收藏
打赏
0
评论
End-to-End Object Detection with Transformers(DETR论文解析)

我们提出了一种将目标检测视为直接集合预测问题的新方法。我们的方法简化了检测流程，有效地消除了许多手工设计的组件，如非极大值抑制程序或锚点生成，这些组件通常明确地编码了我们对任务的先验知识。新框架 DETR（DEtection TRansformer）的主要组成部分是一种基于集合的全局损失，通过二分图匹配强制进行唯一预测，以及一种 Transformer 编码器-解码器架构。在给定一组学到的固定小目标查询的情况下，DETR通过推理对象之间的关系和全局图像上下文直接并行输出最终的预测。
复制链接

扫一扫