【YOLOv8改进】骨干网络: SwinTransformer (基于位移窗口的层次化视觉变换器)(论文笔记+引入代码)

本文详细介绍了SwinTransformer,一种用于视觉任务的高效Transformer模型,其通过移位窗口自注意力实现线性复杂度,并在目标检测等任务上展现优越性能。文章涵盖Swin Transformer的基本原理,包括层次化特征图、块合并和移位窗口注意力机制,以及在YOLOv8中的应用。
摘要由CSDN通过智能技术生成

YOLOv8目标检测创新改进与实战案例专栏

专栏目录: YOLOv8有效改进系列及项目实战目录 包含卷积,主干 注意力,检测头等创新机制 以及 各种目标检测分割项目实战案例

专栏链接: YOLOv8基础解析+创新改进+实战案例

介绍

image-20240126102941733

摘要

本文提出了一种新型视觉Transformer,称为Swin Transformer,它能够作为计算机视觉的通用骨干网络。将Transformer从语言领域适应到视觉领域时面临的挑战源于两个领域之间的差异,例如视觉实体的尺度变化大以及图像中像素的高分辨率相比文本中的单词。为了解决这些差异,我们提出了一种分层Transformer,其表示是通过移位窗口计算得出的。移位窗口方案通过将自注意力计算限制在非重叠的局部窗口内,同时也允许跨窗口连接,从而带来更高的效率。这种分层架构具有在不同尺度上建模的灵活性,并且其计算复杂度与图像大小呈线性关系。Swin Transformer的这些特性使其与广泛的视觉任务兼容,包括图像分类(在ImageNet-1K上的top-1准确率为87.3)和密集预测任务,如目标检测(在COCO test-dev上的框准确率为58.7,掩码准确率为51.1)以及语义分割(在ADE20K val上的mIoU为53.5)。其性能大幅超越了之前的最佳水平,在COCO上框准确率提高了+2.7,在掩码准确率提高了+2.6,在ADE20KmIoU提高了+3.2,展示了基于Transformer模型作为视觉骨干网络的潜力。分层设计和移位窗口方法也证明对所有MLP架构都有益。

创新点

  1. 引入类似于CNN的层次化构建方式构建Transformer模型;

  2. 引入locality思想,对无重合的window区域进行单独的self-attention计算。

文章链接

论文地址:论文地址

代码地址:代码地址

基本原理

Swin Transformer(Liu et al., 2021)是一种基于 Transformer 的深度学习模型,在视觉任务中具有最先进的性能。与之前的 Vision Transformer (ViT) (Dosovitskiy et al., 2020) 不同,Swin Transformer 效率高且精度更高。由于这些理想的特性,Swin Transformers 被用作当今许多基于视觉的模型架构的骨干。

Swin Transformer引入了两个关键概念来解决原始ViT(视觉变换器)所面临的问题——层次化特征图和移位窗口注意力机制。实际上,Swin Transformer的名称来源于“移位窗口变换器”。Swin Transformer的整体架构如下所示。

请注意,在论文中,第一个块使用了“块划分”(patch partition)。为了简化,这个图中将第一个块标为“块合并”(patch merging),因为它们的操作是相似的。

如我们所见,“块合并”(Patch Merging)模块和“Swin Transformer模块”是Swin Transformer中的两个关键构建块。

Video Swin Transformer是对Swin Transformer在视频领域的应用进行改进的一种方法。根据引用中提到的资料,Video Swin Transformer在构建窗口和进行注意力计算时有一些不同之处。具体来说,Video Swin Transformer引入了时间的维度,以考虑视频中的时序信息。 关于Video Swin Transformer改进,我找到了一些参考资料。引用提供了Swin-Transformer网络结构的详细解释,可以帮助进一步理解Video Swin Transformer改进之处。引用提供了Swin Transformer论文的精读,可能包含一些关于Video Swin Transformer改进信息。此外,引用中的文章也提供了从零开始详细解读Swin Transformer,可能包含相关的改进内容。 另外,引用是Video Swin Transformer的官方实现代码的GitHub链接,你可以进一步探索该代码以获取更多关于Video Swin Transformer改进信息。 综上所述,Video Swin Transformer是对Swin Transformer在视频领域进行的改进,你可以通过参考的论文、资料和代码来了解更多有关其改进的内容。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [论文阅读 - Video Swin Transformer](https://blog.csdn.net/zjuPeco/article/details/122860198)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] - *3* [[Video Transformer] Video Swin Transformer](https://blog.csdn.net/weixin_46746665/article/details/122567590)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YOLO大师

你的打赏,我的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值