【论文阅读】（DETR）End-to-End Object Detection with Transformers

insight^tkk

已于 2024-06-30 23:15:30 修改

阅读量1k

点赞数 17

分类专栏：深度学习文章标签：目标检测人工智能计算机视觉

于 2024-02-01 18:33:51 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42490414/article/details/135754170

版权

深度学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

【论文阅读】（DETR）End-to-End Object Detection with Transformers

文章目录

【论文阅读】（DETR）End-to-End Object Detection with Transformers

1. Abs

两句话概括：

第一个真正意义上的端到端检测器
最早将transformer应用到计算机视觉领域方法之一

2. Intro

基于Conv目标检测方法，如YOLO，在精度和速度上都已经非常优秀。
但是这些传统算法往往需要prior和post-process流程，导致额外的计算量，需要复杂的代码来部署模型。

prior：例如，YOLOv5使用聚类算法提前计算anchor boxes
post-process：例如，NMS去除多余预测框

DETR则完全不需要这些，从输入到输出，一气呵成，简洁优雅。

3. Method

3.1 模型结构

网络架构如图所示，同样非常简单
在这里插入图片描述

一个backbone：提取特征
两个transformer
1. encoder：将特征图展平成序列，加上位置编码，使用self-attn进一步处理，使得每个特征向量关注到合适的特征表示
2. decoder：cross-attn，query在特征序列上“逐个问询是否存在目标，目标在哪，有多大”，使得query学习到目标的位置信息和特征表示
两个FFN：对query的信息进行“解压”，得到预测结果（类别和边界框）。

3.2 Loss

分类：负log损失
bbox:（GIoU）IoU损失 + L1损失

4. Exp

除了AP75和APs，DETR在同样的参数规模下都超过了Faster RCNN，但是计算量和检测速度更慢。
在这里插入图片描述

5. Discussion

5.1 二分匹配

匈牙利算法可参考[3]

由于DETR默认使用100个queries，即模型输出100个预测框，而实际目标数量只有几个；
因此，需要通过二分匹配算法得到最终的预测结果；
简单来说，就是要把query和gt一一对应，如果一张图像中有5个gt，则在100个queries中通过匹配算法筛选出5个最接近gt的预测结果。

5.2 注意力机制

如图是decoder的注意力可视化结果，可以看到query更关注于物体的边边角角，为目标定位提供了有效信息。
在这里插入图片描述

5.3 方法存在的问题

使用self-attn，太长的特征序列会导致爆炸的计算量，因此输入图像也不能太大
transformer收敛速度慢，训练时间长
小目标效果一般

6. Conclusion

DETR为目标检测提供了简洁有效的端到端检测框架，且达到了主流检测器的水平，但仍然有较多改进空间。

参考

[1] https://arxiv.org/abs/2005.12872
[2] https://www.bilibili.com/video/BV1ZT411D7xK/
[3] https://blog.csdn.net/qq_54185421/article/details/125992305

关注

17
点赞
踩
16

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

insight^tkk 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。