芒果YOLOv5改进89：主干篇：结合 Swin Transformer V2结构，Swin Transformer V2：通向视觉大模型之路

芒果学AI

已于 2024-04-01 11:06:31 修改

阅读量1.5w

点赞数 21

CC 4.0 BY-SA版权

分类专栏：芒果YOLOv5原创改进文章标签： transformer 深度学习人工智能

于 2022-09-07 07:00:00 首次发布

本文链接：https://blog.csdn.net/qq_38668236/article/details/126735107

芒果YOLOv5原创改进专栏收录该内容

114 篇文章 ¥99.90 ¥299.90

订阅专栏

本博客介绍了如何将Swin Transformer V2结构结合到YOLOv5中，以提升目标检测的性能。通过修改YOLOv5的yaml配置文件和common.py，实现Swin Transformer的融合。文章详细阐述了Swin Transformer的改进，包括其在大规模视觉任务中的优势和训练技术，展示了如何在YOLOv5网络中应用这些改进，以达到更高的准确率。

🔥🔥🔥YOLO系列 + Swin Transformer V2 结合应用为 `CSDN芒果汁没有芒果` 首发更新博文

芒果专栏基于 AKConv 的改进结构，改进源码教程 | 详情如下🥇
👉1. Swin transformer v2结构

💡本博客改进源代码改进适用于 YOLOv5 按步骤操作运行改进后的代码即可即插即用结构。博客包括改进所需的核心结构代码文件

对于这块有疑问的，可以在评论区提出，或者私信CSDN。🌟

本篇是《YOLOv5结合Swin Transformer V2结构🚀》的修改演示

使用YOLOv5网络🚀作为示范，可以加入到 YOLOv7、YOLOX、YOLOR、YOLOv4、Scaled_YOLOv4、YOLOv3等一系列YOLO算法模块

文章目录

Swin Transformer论文

请添加图片描述

该论文作者提出了缩放 Swin Transformer 的技术多达 30 亿个参数，使其能够使用多达 1,536 个图像进行训练1,536 分辨率。通过扩大容量和分辨率，Swin Transformer 在四个具有代表性的视觉基准上创造了新记录：ImageNet-V2 图像分类的84.0% top-1 准确率，COCO 对象检测的63.1 / 54.4 box / mask mAP，ADE20K 语义分割的59.9 mIoU，和86.8%Kinetics-400 视频动作分类的前 1 准确率。我们的技术通常适用于扩大视觉模型，但尚未像 NLP 语言模型那样被广泛探索，部分原因是在训练和应用方面存在以下困难：1）视觉模型经常面临大规模的不稳定性问题和 2）许多下游视觉任务需要高分辨率图像或窗口，目前尚不清楚如何有效地将低分辨率预训练的模型转移到更高分辨率的模型。当图像分辨率很高时，GPU 内存消耗也是一个问题。为了解决这些问题，我们提出了几种技术，并通过使用 Swin Transformer 作为案例研究来说明：1）后归一化技术和缩放余弦注意方法，以提高大型视觉模型的稳定性；2) 一种对数间隔的连续位置偏差技术，可有效地将在低分辨率图像和窗口上预训练的模型转移到其更高分辨率的对应物上。此外，我们分享了我们的关键实现细节，这些细节可以显着节省 GPU 内存消耗，从而使使用常规 GPU 训练大型视觉模型变得可行。使

了解本专栏