李沐论文精读系列：DETR（End-to-End Object Detection with Transformers) Transformer的端到端的目标检测

交换喜悲

已于 2024-01-09 21:44:38 修改

阅读量440

点赞数 10

分类专栏：李沐论文精读文章标签：目标检测 transformer 人工智能深度学习

于 2024-01-09 21:42:04 首次发布

本文链接：https://blog.csdn.net/absence521/article/details/135490498

版权

李沐论文精读专栏收录该内容

1 篇文章 0 订阅

订阅专栏

标题：《End-to-End Object Detection with Transformers》

Transformer的端到端目标检测

1.摘要：

我们提出了一种将目标检测视为直接集合预测问题的新方法，我们的方法简化了监测管道，有效地消除了对许多手工设计组件的需求，例如非极大值抑制或者锚生成，这些组件有效地编码了我们对任务的先验知识。新框架的主要成分，称为检测转换器或 DETR，是基于集合的全局损失，它通过二部匹配强制唯一的预测，以及变压器编码器-解码器架构。给定一组固定的学习对象查询，DETR 推理对象和全局图像上下文的关系，以并行直接输出最终的预测集。与许多其他现代检测器不同，新模型在概念上很简单，不需要专门的库。DETR在具有挑战性的COCO对象检测数据集上展示了与成熟和高度优化的Faster RCNN基线相当的准确性和运行时性能。此外，DETR可以很容易地推广，以统一的方式产生全景分割。我们表明它明显优于竞争基线。

2.模型结构：

在这里插入图片描述

3.方法

首先通过CNN抽取图片特征，然后拉成一个向量，将向量送入编码器，进一步学习全局特征，帮助后面做检测，再用transformer decoder去生成很多的预测框，然后把预测的框和ground truth的框做一个匹配，最后在匹配的框里面去算目标检测的loss。
预测还是推理都没有anchor生成这一步。
将DETR通过二分图匹配算得目标函数。
主要就讲两个东西，基于集合的目标函数，和DETR结构。
问题是怎么知道那个预测框对应哪个ground truth框呢，因为N设定为100，会出来100个预测框，但是一张图片所含的物体种类可能只有十几个，作者把这种对应转化成了一个二分图匹配的问题。

Bounding box的损失，之前用的L1，loss太大不利于优化，所以作者不仅用了L1 loss，还用了generalized iou loss，是一个和框大小无关的目标函数。
先算了一个最优匹配，然后再算loss

4.结论

我们提出了 DETR，这是一种基于变换器和二分匹配损失的目标检测系统的新设计，用于直接集预测。该方法在具有挑战性的 COCO 数据集上实现了与优化的 Faster R-CNN 基线相当的结果。DETR 易于实现，并且具有灵活的架构，可以轻松扩展到全景分割，并具有具有竞争力的结果。此外，它在大型对象上实现了比 Faster R-CNN 更好的性能，这可能是由于处理自注意力执行的全局信息。这种检测器的新设计也带来了新的挑战，特别是在小物体的训练、优化和性能方面。当前的检测器需要几年的改进来应对类似的问题，我们希望未来的工作能够成功地解决 DETR 的问题。

交换喜悲

关注

10
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
李沐论文精读系列：DETR（End-to-End Object Detection with Transformers) Transformer的端到端的目标检测

我们提出了一种将目标检测视为直接集合预测问题的新方法，我们的方法简化了监测管道，有效地消除了对许多手工设计组件的需求，例如非极大值抑制或者锚生成，这些组件有效地编码了我们对任务的先验知识。新框架的主要成分，称为检测转换器或 DETR，是基于集合的全局损失，它通过二部匹配强制唯一的预测，以及变压器编码器-解码器架构。给定一组固定的学习对象查询，DETR 推理对象和全局图像上下文的关系，以并行直接输出最终的预测集。与许多其他现代检测器不同，新模型在概念上很简单，不需要专门的库。
复制链接

扫一扫