DETR论文笔记 End-to-End Object Detection with Transformers

摘要

DETR是一个使用transformer进行目标检测的一篇论文。它的亮点在将transformer应用到了视觉任务,将NLP和CV任务之间打通了。DETR实现非常简单,不需要像faster-rcnn一样设计很复杂的结构,而且可以达到和faster-rcnn差不多的结果。

模型大致结构

模型流程图
模型的结构主要是两部分,首先是CNN的图片特征提取部分,然后是transformer的结构部分,经过transformer之后,就输出了目标检测的结果。模型输出的结果是固定的,也就是说最多检测一张图片中N个目标。
CNN输出的结果是一个 H ∗ W ∗ C H*W*C HWC的tensor,代表了图片提取出的feature map。将feature map变成 ( H ∗ W ) ∗ C (H*W)*C (HW)C的二维矩阵放到transformer中。

损失函数

transformer的输出是N个预测,N是一个固定值,这个N要比正常图片中可能出现的目标的数量大一些。数据的标注由两部分组成:一个是 c i c_i ci代表物体所属类别,一个是 b i b_i bi代表目标的矩形框。预测值同样由两个部分组成, p ^ σ

  • 6
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值