DETR: DEtection + TRansformer 将transformer引入CV的首创


论文名称:End-to-End Object Detection with Transformers
原文地址: https://arxiv.org/abs/2005.12872
开源地址: https://github.com/facebookresearch/detr

DETR原理

任务:Object Detection 目标检测(主要关注于目标检测,作者还将DETR generalize 到 panoptic segmentation 任务上,DETR表现甚至还超过了其他的baseline);
工具:Transformer;
特点:End-to-End;
目标检测的任务是预测一系列的 Bounding Box 的坐标以及 Label ,而现有大多数目标检测器通过定义了一些 proposal、anchor或 windows,把问题构建为一个分类和回归问题来间接地完成这个任务。与它们不同的是,DETR将目标检测视为集合预测问题,简化了目标检测的整体流程。没有现有的主流目标检测器(例如 one-stage 的 YOLO,two-stage 的 Faster-RCNN)中的 anchor、label assign、nms等操作,做到了真正的 End-to-End。DETR就是将 Transformer 应用到了 object detection 领域,替代了现有的模型需要手工设计的工作,并取得了不错的效果。DETR第一个使用 End to End 的方式解决检测问题,解决的方法是把检测问题视作是一个 set prediction problem。它主要采用了 Transformer 的编解码结构,它在序列预测任务上大获成功。Transformer 中的自注意力机制显示地界定了序列中元素间的相互作用,因此可以用于约束集合的预测结果。
在这里插入图片描述
上图描述:上图为DETR的检测流程,能够一次性预测多个目标,并通过loss唯一地匹配预测结果和标注信息。(值得关注的是,DETR不需要任何其他的特殊层,整个结构仅由 Transformer 和 ResNet 组成;同时在最后的二分匹配过程中可以看到,产生的预测结果不包含感兴趣目标类别时,与 " no object " 匹配)
可以看到,主要框架是由 CNN 和 Transformer 构成,Transformer 主要借助 self-attention 机制,在我之前写的这篇文章里有描述Transformer初学习,可以对一个序列中的所有元素两两之间的interactions进行建模,使得这类 Transformer 的结构非常适合约束集合预测问题,在序列预测任务上大获成功。

DETR特点

  • 【Transformer】利用 transformer 的 encoder-decoder 架构一次性生成 N 个 box prediction。其中 N 是一个人为设定的、远远大于 images 中 object 类别数的一个整数。
  • 【Bipartite matching loss】基于预测的 boxes 和 ground truth boxes 的二分图匹配计算 loss 的大小,从而使得预测的 box 的位置和类别更接近于 ground truth。

DETR整体框架

DETR整体结构可以分为四个部分:backbone,encoder,decoder 和 FFN,如下图所示分别解释这四个部分:
在这里插入图片描述

Backbone

CNN backbone 处理 x i m g ∈ B × 3 × H 0 × W 0 x_{img}\in B\times 3\times H_{0}\times W_{0} ximgB×3×H0×W0 维的图像,把它转换为 f ⊂ R B × C × H × W f\subset R^{B\times C\times H\times W} fRB×C×H×W 维的 feature map (在DETR中一般设为C= 2048或256, H = H 0 32 H= \frac{H_{0}}{32} H=32H

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值