ViT、DETR 和 Swin Transformer ：基于 Transformer 的计算机视觉（CV）模型

最新推荐文章于 2025-04-22 08:52:37 发布

Jul.01

最新推荐文章于 2025-04-22 08:52:37 发布

阅读量874

点赞数 5

文章标签： transformer 计算机视觉深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45998729/article/details/146347842

版权

1️⃣ Vision Transformer（ViT）

📌 主要特点：

直接将图像切成固定大小的 Patch（如 16×16），然后展平并当作 Transformer 的输入（类似 NLP 处理 Token）。
全局注意力（Self-Attention），可以看到整个图像，但计算复杂度高。
用于图像分类任务（如 ImageNet 分类）。

📌 主要缺点：

计算复杂度高，尤其是大图像时，O(N²) 复杂度。
不能自适应感受野（固定 Patch 大小）。

📌 适用场景：

图像分类（如 ImageNet）
Fine-tuning 适用于医疗影像、卫星图像分析等

图像（224x224）
↓ 切成 16×16 小块
↓ 线性投影为 Patch Embedding
↓ 位置编码 + Transformer 层
↓ MLP 进行分类

2️⃣ DEtection TRansformer（DETR）

📌 主要特点：

基于 Transformer 的目标检测模型，将检测问题转换为**集合匹配（Set Prediction）**问题。
直接用 Transformer 替代了 CNN 目标检测中的 RPN（Region Proposal Network）。
使用二分匹配（Hungarian Matching） 来优化目标检测框的位置和类别。

📌 主要优点：

End-to-End 训练，不需要额外的后处理（如 NMS）。
检测多个目标，不需要手工设计 Anchor Boxes（对小目标、遮挡目标更友好）。

📌 主要缺点：

计算复杂度较高，尤其是在高分辨率图像上。
收敛速度较慢，相比于传统的 Faster R-CNN 需要更长时间训练。

📌 适用场景：

目标检测（Object Detection）
实例分割（Instance Segmentation）
行人检测、自动驾驶等

图像输入 → CNN Backbone（提取特征） → Transformer（全局注意力） → 输出目标检测框和类别

3️⃣ Swin Transformer

📌 主要特点：

采用滑动窗口（Shifted Window）自注意力机制，减少计算量，适应大分辨率图像。
层次化设计（Hierarchical Feature Representation），更接近 CNN 方式，适用于下游任务（目标检测、分割等）。
可以在不同分辨率下提取特征，适合密集预测任务（如目标检测、分割）。

📌 主要优点：

计算量更小，相比 ViT 适用于更大图像。
支持多尺度特征提取（类似 CNN 的 FPN 结构），适用于目标检测、语义分割。
能够在 ImageNet 训练后迁移到其他任务，通用性更强。

📌 主要缺点：

相比 ViT 复杂度更高（但比标准 Transformer 低）。
由于窗口大小固定，可能在处理超大物体或小目标时不如 CNN+Transformer 组合方法。

📌 适用场景：

图像分类
目标检测（比 ViT 更适合 YOLO/Faster R-CNN 任务）
语义分割（适用于城市、医学影像等）
多任务 CV 任务（如 Action Recognition、Pose Estimation）

图像输入 → 线性 Patch Embedding → Swin Transformer Block（窗口注意力） → 多尺度特征提取 → 适用于分类、检测、分割

📊 总结对比

模型	主要任务	注意力机制	计算复杂度	适用场景
ViT	图像分类	全局注意力（O(N²)）	高（需要大数据）	分类
DETR	目标检测	Transformer 全局注意力	高（慢收敛）	目标检测
Swin Transformer	目标检测、分割、分类	Shifted Window 注意力	低（比 ViT 好）	分类 + 检测 + 分割

博客等级

码龄5年

63
原创

1095
点赞

976
收藏

1964
粉丝

关注

私信

热门文章

最新评论

解决anaconda prompt找不到的情况
m0_70258264: 为什么显示Python：can't open file '.Lib\_nsis.py'：[error2]No such file or directory
FlashAttention 如何通过优化自注意力机制的计算过程，来减少对 GPU 全局内存（HBM）的访问，从而提高计算效率。
Jul.01: 是的，您的分析没错。如果内存足够大，不分块确实会更快
FlashAttention 如何通过优化自注意力机制的计算过程，来减少对 GPU 全局内存（HBM）的访问，从而提高计算效率。
南叔先生: 我再想了一下，一是分块和部分快的延迟是否一样，因为分块和不分块，搬运的数据量是一样的，所以总体的延迟应该差不多，但我感觉分块的总体延迟可能还会更大。二是存储量够不够后面简单的计算了一下：假如QK矩阵的维度是512*4096，那两个矩阵用fp16存储，512×4096x2=4,194,304 字节 = 4 MB，两个矩阵应该是8MB，然后，输出矩阵S的维度是4096*4096，即16MB，所以总共需要22MB。真的超了，所以我理解，如果内存够，那应该不分快，速度还会更快。所以，对于size比较小的模型，不分块应该会更快。
FlashAttention 如何通过优化自注意力机制的计算过程，来减少对 GPU 全局内存（HBM）的访问，从而提高计算效率。
南叔先生: 嗷，我是意思就是，既然存储内存够，那不分块，也可以将中间结果存在SRAM里呀。分块和不分块，总体的搬运时间，我理解应该是一样的。
FlashAttention 如何通过优化自注意力机制的计算过程，来减少对 GPU 全局内存（HBM）的访问，从而提高计算效率。
Jul.01: 首先512×1024x2=1,048,576 字节 = 1 MB,两个矩阵应该是2MB.其次数据存储量的角度来看，计算过程中QK结果需要的存储量确实不大，但是频繁地从HBM（高带宽内存）加载数据会产生较大的延迟和带宽压力。如果可以将中间结果存储在SRAM中，就能减少对HBM的访问。因为Flash Attention通过块式计算的方式，可以将 QK 的结果保存在SRAM中，直接在本地进行softmax归一化和后续的矩阵操作，避免将 QK 回写到HBM，从而减少内存带宽的压力并提升计算效率。关于存储量再举个例子：假如是2048x4096的维度fp16存储，单个矩阵需要16M，矩阵维度增加了4倍，但是存储量是指数级的增加。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。