李沐论文精读系列:DETR(End-to-End Object Detection with Transformers) Transformer的端到端的目标检测

标题:《End-to-End Object Detection with Transformers》

Transformer的端到端目标检测

1.摘要:

我们提出了一种将目标检测视为直接集合预测问题的新方法,我们的方法简化了监测管道,有效地消除了对许多手工设计组件的需求,例如非极大值抑制或者锚生成,这些组件有效地编码了我们对任务的先验知识。新框架的主要成分,称为检测转换器或 DETR,是基于集合的全局损失,它通过二部匹配强制唯一的预测,以及变压器编码器-解码器架构。给定一组固定的学习对象查询,DETR 推理对象和全局图像上下文的关系,以并行直接输出最终的预测集。与许多其他现代检测器不同,新模型在概念上很简单,不需要专门的库。DETR在具有挑战性的COCO对象检测数据集上展示了与成熟和高度优化的Faster RCNN基线相当的准确性和运行时性能。此外,DETR可以很容易地推广,以统一的方式产生全景分割。我们表明它明显优于竞争基线。

2.模型结构:

在这里插入图片描述
在这里插入图片描述

3.方法

  1. 首先通过CNN抽取图片特征,然后拉成一个向量,将向量送入编码器,进一步学习全局特征,帮助后面做检测,再用transformer decoder去生成很多的预测框,然后把预测的框和ground truth的框做一个匹配,最后在匹配的框里面去算目标检测的loss。
  2. 预测还是推理都没有anchor生成这一步。
  3. 将DETR通过二分图匹配算得目标函数。
    主要就讲两个东西,基于集合的目标函数,和DETR结构。
    问题是怎么知道那个预测框对应哪个ground truth框呢,因为N设定为100,会出来100个预测框,但是一张图片所含的物体种类可能只有十几个,作者把这种对应转化成了一个二分图匹配的问题。
    在这里插入图片描述
    在这里插入图片描述
    Bounding box的损失,之前用的L1,loss太大不利于优化,所以作者不仅用了L1 loss,还用了generalized iou loss,是一个和框大小无关的目标函数。
    先算了一个最优匹配,然后再算loss

4.结论

我们提出了 DETR,这是一种基于变换器和二分匹配损失的目标检测系统的新设计,用于直接集预测。该方法在具有挑战性的 COCO 数据集上实现了与优化的 Faster R-CNN 基线相当的结果。DETR 易于实现,并且具有灵活的架构,可以轻松扩展到全景分割,并具有具有竞争力的结果。此外,它在大型对象上实现了比 Faster R-CNN 更好的性能,这可能是由于处理自注意力执行的全局信息。这种检测器的新设计也带来了新的挑战,特别是在小物体的训练、优化和性能方面。当前的检测器需要几年的改进来应对类似的问题,我们希望未来的工作能够成功地解决 DETR 的问题。

  • 10
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值