DETR论文笔记 End-to-End Object Detection with Transformers

最新推荐文章于 2024-04-02 00:14:01 发布

ACM_Nestling

最新推荐文章于 2024-04-02 00:14:01 发布

阅读量4.6k

点赞数 6

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010734277/article/details/106502774

版权

文章目录

摘要
模型大致结构
损失函数
模型结构
为什么有用

摘要

DETR是一个使用transformer进行目标检测的一篇论文。它的亮点在将transformer应用到了视觉任务，将NLP和CV任务之间打通了。DETR实现非常简单，不需要像faster-rcnn一样设计很复杂的结构，而且可以达到和faster-rcnn差不多的结果。

模型大致结构

模型流程图
模型的结构主要是两部分，首先是CNN的图片特征提取部分，然后是transformer的结构部分，经过transformer之后，就输出了目标检测的结果。模型输出的结果是固定的，也就是说最多检测一张图片中N个目标。
CNN输出的结果是一个 $H * W * C$ 的tensor，代表了图片提取出的feature map。将feature map变成 $(H * W) * C$ 的二维矩阵放到transformer中。

损失函数

transformer的输出是N个预测，N是一个固定值，这个N要比正常图片中可能出现的目标的数量大一些。数据的标注由两部分组成：一个是 $c_i$ 代表物体所属类别，一个是 $b_i$ 代表目标的矩形框。预测值同样由两个部分组成，

最低0.47元/天解锁文章

关注

6
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
DETR论文笔记 End-to-End Object Detection with Transformers

文章目录摘要模型大致结构损失函数模型结构为什么有用摘要论文：End-to-End Object Detection with TransformersDETR是一个使用transformer进行目标检测的一篇论文。它的亮点在将transformer应用到了视觉任务，将NLP和CV任务之间打通了。DETR实现非常简单，不需要像faster-rcnn一样设计很复杂的结构，而且可以达到和faster-rcnn差不多的结果。模型大致结构模型的结构主要是两部分，首先是CNN的图片特征提取部分，然后是tra
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。