Swin Transformer对CNN的降维打击，精心整理

imtokenmax合约众筹

于 2024-03-28 08:12:39 发布

阅读量829

点赞数 14

分类专栏： 2024年程序员学习文章标签： transformer cnn 深度学习

本文链接：https://blog.csdn.net/imtokenmax/article/details/137096988

版权

本文详细介绍了Swin Transformer的架构，包括Architecture概况、swin-transformer结构解析和shifted window技术。Swin Transformer通过在窗口内进行self-attention计算，结合shifted window技术，解决了传统窗口方法中信息交互的局限性，成为对CNN的一种强大替代方案。同时，文章还提及了作者在大厂的工作经历和Java开发者的学习资源。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2.2 Architecture概况

学习swin transformer之前，我们首先需要熟知以下几个概念：

Resolution：假设一张图像的分辨率为224x224，这里所说的224就是像素。
Patch：所谓的Patch就是由多少个像素点构成的，假设一个patch的size为4x4，则这个patch包含16个像素点。
Window：window的size是由patch决定的，而不是由像素点，假设window的size为7x7，则该window包含49个patch，而不是49个像素点。

在对swin-transformer网络进行讲解之前，我们首先需要明确一点：无论是transformer还是swin-transformer结构，都不会改变输入的形状，换句话说，输入是什么样，经过transformer或swin-transformer后，输出跟输入的形状是相同的。

一般而言，我拿到一篇论文之后，会首先分析每个块的输入输出是怎样的，先从整体上对网络结构把握，然后在慢慢的细化。我们首先来梳理一下swin-transformer每个块的输入输出。

在这里插入图片描述

| stage | Layer | size |

| — | — | — |

| | input image | 224x224x3 |

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。