Transformer in CV

最新推荐文章于 2024-02-23 11:48:26 发布

Linux基金会AI&Data基金会

最新推荐文章于 2024-02-23 11:48:26 发布

阅读量445

点赞数

文章标签：大数据算法计算机视觉机器学习人工智能

本文链接：https://blog.csdn.net/LF_AI/article/details/121391916

版权

Transformer模型由Google于2017年提出，最初应用于NLP，现已被引入到CV领域。DETR首次将Transformer用于目标检测，简化了检测流程，与Faster R-CNN相当。ViT则在图像分类任务上取得突破，使用Transformer结构，预训练后在多个基准上超越SOTA。研究发现，大规模预训练的Transformer模型在视觉任务上表现优越，尤其是ViT-G/14模型，达到90.45%的ImageNet Top-1准确率。

摘要由CSDN通过智能技术生成

引言

Transformer 是 Google 团队在 2017 年提出的一种 NLP 经典模型，现在比较火热的 Bert 也是基于 Transformer。Transformer 模型使用了 Self-Attention 机制，不采用 RNN 的顺序结构，使得模型可以并行化训练，而且能够拥有全局信息。

Transformer+Detection

DETR

Introduction

早在20年5月就有人引用Transformer处理目标检测任务(End-to-End Object Detection with Transformers)，首次将Transformer从NLP引入到CV领域，该文章使用Transformer+Detection方式进行目标检测任务，取代了现在的模型需要手工设计的工作，并且取得了不错的结果。其准确率和运行时间上与Faster Rcnn相当。DETR是首次提出使用End to End的方式解决目标检测问题。

DETR architecture

DETR结合CNN和Transformer的结构，并行实现预测。DETR 通过删除编码先验知识的多个手工设计的组件（如空间锚点或非最大抑制）来简化检测流程。与大多数现有检测方法不同，DETR 不需要任何自定义层，可以在包含 CNN 和 Transformer 的任何框架中轻松重现。图1为DETR整体结构。

图1 DETR整体结构

DETR整体结构主要包含四个部分：Backbone、Transformer encoder、Transformer decoder 和 Prediction feed-forward networks (FFNs)，如图2为DETR框架细节图。

图2 DETR框架细节

Backbone

CNN backbone处理原始输入图像，把它转换为低分辨率的 feature map 一般

Transformer encoder

encoder 的输入是的 feature map，使用卷积降低通道维数，从变为更小的得到新的feature map 。encoder 需要一个序列输入，将空间维度折叠成维，最后得到的 feature map 尺寸为。由于 Transformer 架构是置换不变的，使用固定位置编码对其进行补充，这些编码添加到每个注意力层的输入中。

Transformer decoder

DETR decoder 使用标准 Transformer decoder 结构，转换为个大小为的 multi-headed self and encoder-decoder attention 机制，与原始 Transformer 的不同之处在于 DETR 模型在每个解码器层并行解码个对象，一次性输出全部的 predictions。通过使用self- and encoder-decoder attention 覆盖 embeddings，该模型使用它们之间的成对关系对所有对象进行全局推理，同时能够使用整个图像作为上下文。