swin transformer的一点见解和疑问

最新推荐文章于 2024-07-19 17:53:28 发布

Zmy4843

最新推荐文章于 2024-07-19 17:53:28 发布

阅读量547

点赞数

文章标签： transformer ar 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_37541419/article/details/121107952

版权

Swin Transformer是一种使用移位窗口的分层视觉Transformer，旨在降低计算复杂度。它通过在固定窗口内进行局部注意力操作，形成类似CNN的层次结构，逐层扩大感受野。论文中提出的网络结构避免了Transformer的全局注意力复杂度，与图像大小成线性关系。然而，这引发了疑问：为何采用局部窗口而不是卷积来捕获信息，尤其是在考虑CNN的网格线效应和全局关系建模时。

摘要由CSDN通过智能技术生成

论文：[2103.14030] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows (arxiv.org)

swin transformer主要用于backbone和图像分类。

核心思路如下：

输入(H,W,3)的RGB图，第一层像VIT一样分块输出（H/4,W/4,4C）的特征图。接下来进入金字塔swin transformer。每个分辨率的特征图都在固定窗口内（如7x7）做patch attention，相当于局部attention，然后进行降采样进入下一层。降采样不使用卷积，而是每四个相邻的patch组成一组，在通道上进行扩展，分辨率减半，通道数为原来的四倍，后面再接入通道数减半的全连接层。值得注意的是，每个分辨率中会进行窗口移动，如下图所示，为了实现的是局部窗口之间的信息交互，这是本文的最大亮点。该网络的计算复杂低与图像大小成线性关系，而不是平方关系，更省空间。

关于计算复杂度：

式（1）是建模全局信息tran

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
swin transformer的一点见解和疑问

论文：https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2103.14030swin transformer主要该论文的核心思路如下：1)对于每一层特征(H,W,C)降采样，降采样方式没有使用卷积，而是间隔采集像素点，然后将采集后的像素特征concate（H/2,W/2,4C），空间信息转为通道信息；2）每一层都在固定窗口内（如7x7）做attention，相当于局部attention；3）偶数层会有网格线迁移，如下图所示，实现
复制链接

扫一扫

Zmy4843 CSDN认证博客专家 CSDN认证企业博客

码龄8年

1: 原创

210万+: 周排名

45万+: 总排名

547: 访问

: 等级

1: 积分

0: 粉丝

0: 获赞

1: 评论

0: 收藏

私信

关注

热门文章

swin transformer的一点见解和疑问 547

最新评论

swin transformer的一点见解和疑问
月起星九: 我也认为它比较缺少全局信息，感觉swin的设计就是依靠CNN的局部结构设计的，不过也是给人们一个网络如何设计的启发吧，后续的transformer工作可以再把全局的关系考虑进来

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。