Swin Transformer【Backbone】

太简单了

已于 2023-07-29 23:57:44 修改

阅读量1.7k

点赞数

分类专栏： Backbone 文章标签：计算机视觉深度学习

于 2022-07-24 21:37:49 首次发布

本文链接：https://blog.csdn.net/qq_41804812/article/details/125926671

版权

Backbone 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

背景

Swin Transformer是ICCV2021最佳论文。

ViT让transformer从NLP直接应用到CV有两个直接的问题：尺度问题（比如行人，车等大大小小的尺度问题在NLP领域就没有），序列问题（如果以图像像素点为基本单位，序列太大）。16个patch（分辨率低）使ViT可能不适合密集预测型的任务，全局建模使计算复杂度平方倍增长。

Swin Transformer让transformer也能做层级式的特征提取，使得提取的特征具备多尺度概念。窗口内计算自注意力使序列长度降低（计算复杂度随着图像大小线性增长，非平方级增长），移动使相邻两个窗口之间有了交互。语义相近的部分大概率出现在相邻的区域，这样local的设计是完全够用的，ViT的全局设计还是冗余的。

总的来说，是借鉴卷积的窗口滑动与自身全局视野的把握优势相结合。

模型结构

（1）开始的操作可对比ViT理解，假设输入的图片[224,224,3]，经过Patch Partition打成[56,56,48]（类似ViT，不过这里的patch大小为4*4），经过Linear Embedding形成[56,56,96]，改成[3136*96]，再输入到Block的最终处理成[3136*96]。

（2）Patch Merging（空间大小除2，通道数乘4再除2（用1*1卷积再将通道数降低），为了对比卷积神经网络有了这样的操作，这种操作可以理解为以空间换维度，可看参考的视频，很详细。）成[28,28,192]，依次循环构成整个Swin Transformer。

在这里插入图片描述