transformer、vit-transformer、swin-transformer以及DETR的概念与区别

最新推荐文章于 2025-04-08 09:54:27 发布

JayGboy

最新推荐文章于 2025-04-08 09:54:27 发布

阅读量1.1k

点赞数 3

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/Joining667/article/details/140926200

版权

Transformer、ViT (Vision Transformer) 、Swin Transformer 和DETR是深度学习领域中的不同架构，它们在自然语言处理（NLP）和计算机视觉（CV）任务中都有应用。

Transformer
Transformer 是一种基于自注意力机制（self-attention）的深度学习模型架构，它在2017年由 Vaswani 等人提出，旨在解决序列到序列（seq2seq）的机器翻译问题。Transformer 不再依赖于传统的循环神经网络（RNN）或卷积神经网络（CNN），而是使用多头自注意力机制来捕捉序列中的长距离依赖关系。

特点：
- 使用自注意力机制来同时处理序列中的所有位置。
- 由编码器（encoder）和解码器（decoder）组成的结构，适用于处理序列数据。
- 包含位置编码（positional encoding）以保留序列中的位置信息。

Vision Transformer (ViT)
ViT 是将 Transformer 架构应用于计算机视觉领域的一种尝试，由 Dosovitskiy 等人在2020年提出。ViT 将图像分割成一系列均匀的图像块，并将这些块视为序列数据，直接输入到标准的 Transformer 模型中。

特点：
- 将图像块序列化，并使用 Transformer 编码器处理。
- 引入了位置编码以保留图像块的空间信息。
- 在大规模数据集上预训练，取得了与当时最先进的 CNN 模型相媲美的性能。

Swin Transformer
Swin Transformer 是由 Liu 等人在2021年提出的一种新的 Transformer 模型，它专门为计算机视觉任务设计，特别是在图像分类和目标检测中表现出色。

特点：
- 采用分层特征图，通过移动窗口（shifted window）策略来捕捉不同尺度的特征。
- 在自注意力计算中引入了局部性约束，减少了计算复杂度。
- 可以作为各种视觉任务的通用主干网络（backbone）。

DETR

DETR是由Carion等人于2020年提出的，它将目标检测任务视为一个集合预测问题，直接预测物体的类别和位置，无需传统的锚框（anchor boxes）和非极大值抑制（NMS）步骤。

特点：

-使用Transformer的编码器-解码器架构来进行目标检测。

-通过集合预测和双匹配策略（bipartite matching）来确保每个目标只有一个预测。

-是一个端到端的模型，可以直接优化检测性能。

区别

任务焦点：
- DETR：专注于目标检测任务，旨在直接预测物体的边界框和类别。
- ViT：主要用于图像分类任务，将图像块序列化后输入Transformer进行分类。
- Swin Transformer：虽然可以用于图像分类，但其设计更侧重于处理局部特征，使其适用于需要细粒度空间信息的任务，如目标检测和分割。
- 原始Transformer：主要用于序列到序列的任务，如机器翻译和语言模型。
架构设计：
- DETR：具有特定的编码器-解码器设计，用于集合预测和目标检测。
- ViT：直接将图像块作为序列输入到Transformer编码器中，位置编码用于保留空间信息。
- Swin Transformer：采用分层特征图和移动窗口策略，通过局部的自注意力机制减少计算量。
- 原始Transformer：标准的编码器-解码器结构，主要用于NLP任务。
输出和后处理：
- DETR：输出是物体的集合，不需要NMS后处理。
- ViT：输出是图像分类的类别概率。
- Swin Transformer：输出可以是不同尺度的特征图，用于后续的目标检测或分割任务。
- 原始Transformer：输出通常是一系列的预测序列，如机器翻译的文本序列。
计算复杂度：
- DETR、ViT和Swin Transformer在处理图像时都面临计算复杂度的问题，但它们通过不同的策略来降低复杂度。DETR通过集合预测减少输出数量，ViT通过减少序列长度，Swin Transformer通过限制自注意力的范围。

这些模型都是 Transformer 家族的一部分，但它们针对不同的应用场景和任务需求进行了特定的设计和优化。