文献阅读（59）CVPR2021-Swin Transformer-Hierarchical Vision Transformer using Shifted Windows

学徒刘猛

已于 2022-10-28 12:06:17 修改

阅读量465

点赞数

分类专栏：文献阅读文章标签： transformer 计算机视觉

于 2021-10-25 19:47:37 首次发布

本文链接：https://blog.csdn.net/CSDNTianJi/article/details/120958819

版权

文献阅读专栏收录该内容

87 篇文章 32 订阅

订阅专栏

本文是对《Swin Transformer-Hierarchical Vision Transformer using Shifted Windows》一文的浅显翻译与理解，如有侵权即刻删除。

更多相关文章，请移步：
文献阅读总结：计算机视觉

Title

《Swin Transformer-Hierarchical Vision Transformer using Shifted Windows》

——CVPR2021

Author: 刘泽

总结

该文是CVPR的best paper，作者胡瀚对其进行了介绍：https://www.bilibili.com/video/BV1eb4y1k7fj?from=search&seid=4785679647044800045&spm_id_from=333.337.0.0

Transformer在NLP领域的成果吸引了CV领域研究者的注意，期待为NLP和CV建立一个通用的模型架构。本文提出了Swin Transformer算法，将transformer结构引入到了CV领域中，并加入了先验知识如层次性hierarchy、局部性locality和平移不变性translational invariance等。此外，还构造了移动窗口shifted window来代替常用的滑动窗口，相比使用卷积架构的方法，效果更佳。

1 整体框架

文章将transformer结构代替了传统的卷积网络结构，将给定的图像切分为多个区块，在每个区块patch中使用self-attention方法提取特征。具体而言，每个区块会被初始化为44的大小，每个像素点有用RGB值进行表示，因此每个区块的大小为443，这些区块可以用经典方法表示成为维度大小为C的向量。而后，通过叠加多层Swin Transformer blocks，来不断压缩和提取信息。每次将22范围的区块信息压缩成一个区块，同时生成2C长度的向量。其结构如下所示：

在这里插入图片描述

右图是对单层transformer结构模型的拆解，W-MSA即基于window的multi-head self attention，其公式如下所示：

在这里插入图片描述

2 移动窗口

注意到，文章对每个区块进行了自注意力的信息提取，但没有考虑多个区块间的联系。因此，文章提出了移动窗口shifted window来替换传统的滑动窗口sliding window，建模区块与区块间的联系。滑动窗口往往按照规定的步长在数据间进行滑动提取信息，但这样的方法往往计算较为复杂。进而，文章通过利用图像不断循环滑动，来实现了窗口的移动。

在这里插入图片描述

如图所示，上图最左侧区块大小不同的切分图，正是由第二个图的变换得到的，将右下方ABC三部分提取出来，拼接到左上方，就得到了最左侧的切分图，其实际效果如下：

在这里插入图片描述

此外，文章还提出了模型的多个变体，在此不再赘述。

学徒刘猛

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
文献阅读（59）CVPR2021-Swin Transformer-Hierarchical Vision Transformer using Shifted Windows

本文是对《Swin Transformer-Hierarchical Vision Transformer using Shifted Windows》一文的浅显翻译与理解，如有侵权即刻删除。
复制链接

扫一扫