基于Transformer的目标检测领域最新进展

最新推荐文章于 2024-07-31 03:02:42 发布

Joejwu

最新推荐文章于 2024-07-31 03:02:42 发布

阅读量6.6k

点赞数 5

分类专栏： Transformer 文章标签：深度学习目标检测图像处理

本文链接：https://blog.csdn.net/Joejwu/article/details/119744506

版权

本文介绍了Transformer在目标检测领域的最新研究，包括DeTR、Transformer in Transformer和Focal Self-Attention等模型。DeTR简化了目标检测流程，Transformer in Transformer在分类及检测任务上表现优秀，而Focal Self-Attention在Swin Transformer基础上取得更高精度。此外，CBNetV2通过融合不同backbone和检测头，实现了60.1% box AP和52.3% mask AP的出色成绩，但参数量增加，速度较慢。

摘要由CSDN通过智能技术生成

本文为检索该领域文章后做的简单记录，没有模型结构的详细介绍，不过其中两三篇文章已是目前目标检测领域的SOTA（截止到21年8月）！

a、End-to-End Object Detection with Transformers：最早将Transformer带入到目标检测领域的文章，名叫DeTR，在coco数据集上可以达到44.9的准确率，与Faster R-CNN相当；模型的主要结构是先用一个常见的CNN网络提取2D的特征，然后将输出的特征图展平，当作序列输入给Transformer，然后经Transformer处理后并行输出最终预测结果；免去了关于Anchor的处理，免去了NMS的处理；从最后的实验结果来看，该模型不仅在目标检测领域能发挥作用，在目标检测的下游视觉任务领域中，其也能发挥较好的作用，例如全景分割，即语义分割与实例分割的结合版，可见该模型的强大之处！

b、Transformer in Transformer：华为2021年的一项工作，顾名思义，该模型的输入，需要将图片划分为一系列的patches，这一初步划分视为visual sentences，然后下一步再对这些划分出来的patches进行划分，视为visual word；模型里的Transformer结构粉为两块，即内部的与外部

最低0.47元/天解锁文章

Joejwu

关注

5
点赞
踩
40

收藏

觉得还不错? 一键收藏
打赏
3
评论
基于Transformer的目标检测领域最新进展

本文为检索该领域文章后做的简单记录，没有模型结构的详细介绍，不过其中两三篇文章已是目前目标检测领域的SOTA（截止到21年8月）！a、End-to-End Object Detection with Transformers：最早将Transformer带入到目标检测领域的文章，名叫DeTR，在coco数据集上可以达到44.9的准确率，与Faster R-CNN相当；模型的主要结构是先用一个常见的CNN网络提取2D的特征，然后将输出的特征图展平，当作序列输入给Transfo...
复制链接

扫一扫