披着transformer皮的CNN：SwinTransformer

ch隔壁老张

于 2023-04-03 11:12:54 发布

阅读量253

点赞数

分类专栏：深度学习笔记文章标签： transformer cnn 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43402104/article/details/129925185

版权

深度学习笔记专栏收录该内容

6 篇文章

订阅专栏

新一代backbone

源码https://github.com/microsoft/Swin-Transformer

ICCV 2021最佳论文

解决问题：

图像中像素太多，需要更多特征就需要很长的序列

血猎榷场注意力越慢

本质：

用窗口和分层的形式代替长序列

使用分层来代替CNN的感受野

摘要

提出一个Swin Transformer，可以用作骨干网络，直接把transformer用在CV领域，有挑战：1.多尺度物体2.序列长度太长。基于挑战，提出了hierarchical transformer，使用一种一种窗口的方法，现在自注意力在窗口内算，seq很短，而且通过移动窗口，上下层之间会产生交互（cross-window connection），这个层级窗口可以提供各个尺度的信息，而且他的复杂度是随着分辨率提高线性增长（不是平方）

Intro

Vit把图片打成16*16的patch，也就是说每一层token看到的都是这个分辨率，对多尺寸的物体效果就不好，也就是low-resolution、单一尺度

FPN每一层的感受野不一样，可以处理不同尺寸的问题，检测

UNet提出Skip connection，下采样之后不光从bottom里拿特征，还从下采样的结果拿分割

方法

patch partition

patchsize是4X4,48=4X4X3

linear embeding

对每个像素的channel做线性变换（前两步加起来和ViT中liear projection一样）（源码中直接卷积实现）

对于Swin-T版本，超参数C=96 > 56X56X96=3136X56 （token个数 X token向量维度）

swin transfomer

后面谈，维度不变

patch Merging

主要是降维（下采样、类似池化）（类似pixel shuffle的反过程）。把每个小窗口中相同位置的值取出来，拼成新的patch，再把所有patch在cannel维度上concat起来。（此时通道数应该变成4C），然后为了和resNet等网络保持一致，再在cannel维度上做一个1X1的卷积，把维度降一半，变成2C

在Swin Transformer中，每个stage的降低分辨率的过程都是通过Patch Merging实现的。

重复进行三次

这个过程完全类似CNN，特征图降到7X7X768

分类头

如果做分类任务，在7X7X768的基础上添加一个“分类头”，做一个平均池化，变成1X768，再变成1X1000（如果在imageNet上做分类）

基于移动窗口的自注意力

窗口

问题：对于密集预测任务和大分辨率的图片，全局的自注意力有平方倍的复杂度

和标准的复杂度对比

这楼里每个窗口有49个patch

移动窗口

问题：只基于窗口丢失了全局信息

往右下移动窗口3个patch，带来的问题：窗口数增多了，而且窗口大小不一样

一种简单解决，在周围的窗口直接padding-0但是复杂度太高了

解决：一种掩码方式，做一次循环移位

如此得到的窗口数量还是四个，对于左上角的窗口，做自注意力没问题

位置信息

放在了attention矩阵当中，可以学习，使用相对位置信息

对比

分为T、S、B、L四种，其中SwinT和Res50参数相当、SwinS和Res101相当，具体区别如下

ref：

source code：https://github.com/SwinTransformer/Swin-Transformer-Object-Detection

使用：https://www.cnblogs.com/isLinXu/p/15880039.html

测试命令：

python demo/image_demo.py demo/demo.jpg configs/swin/mask_rcnn_swin_tiny_patch4_window7_mstrain_480-800_adamw_1x_coco.py mask_rcnn_swin_tiny_patch4_window7_1x.pth

知乎：https://zhuanlan.zhihu.com/p/468495919

知乎：https://zhuanlan.zhihu.com/p/443418635

博客等级

码龄7年

8
原创

1
点赞

8
收藏

10
粉丝

关注

私信

热门文章

分类专栏

深度学习笔记 6篇

展开全部收起

上一篇：: 基于transformer物体检测：DETR

最新评论

AlexNet学习笔记
CSDN-Ada助手: 恭喜您写出了这篇精彩的博客，我非常喜欢阅读您的学习笔记。AlexNet是深度学习中非常重要的一种模型，您的学习笔记让我对它有了更深入的了解。希望您能够继续坚持写作，分享更多有意思的学习笔记。同时，我建议您可以尝试写一些实践性的教程，让读者能够更快地掌握实际操作技巧。感谢您的分享，期待您的下一篇博客。 CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
撑起CV的半边天：ResNet学习笔记
CSDN-Ada助手: 非常感谢您的分享，恭喜您又写了一篇优秀的博客！ResNet是目前非常热门的深度学习模型，您的学习笔记对广大读者肯定非常有帮助。期待您在接下来的创作中，能够更加深入地探讨深度学习相关的话题，让我们一起学习进步！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
hexo-NexT主题的美化
CSDN-Ada助手: 推荐 Java 技能树：https://edu.csdn.net/skill/java?utm_source=AI_act_java

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。