DL-Paper精读：Swin Transformer

最新推荐文章于 2024-04-04 18:07:48 发布

星月野

最新推荐文章于 2024-04-04 18:07:48 发布

阅读量389

点赞数

分类专栏： paper阅读文章标签：网络计算机视觉人工智能深度学习机器学习

本文链接：https://blog.csdn.net/li6016265/article/details/118662043

版权

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

https://arxiv.org/abs/2103.14030

Transformer在Vision领域的各项任务上已经占据了sota的地位，目前精度最高的模型便是Swin Transformer，一个针对于图像任务的实体分辨率问题进行优化的工作，今天对其进行详细的研究。

Current works and Limitation

ViT及Deit等工作成功地将Transformer结构引入了CV领域，通过先切片拉直再Embedding的操作，将2维CV图像转化为了类似于NLP的序列输入。然后将切片作为token序列输入Transformer结构中，通过不断地在各个patch之间进行交叉融合实现self-attention。目前在ImageNet的分类任务中取得了较好的结果。

但是对于ViT来说，有一个非常不鲁棒的因素，就是patch_size的大小设置，一般设置为16在ImageNet数据集上取得了较好的效果，但是对于更加广泛的CV任务来说，这样的做法存在两个巨大的问题：

1. “large variations in the scale of visual entities”，即目标实体的大小。在NLP任务中，每个token就是一个词，可以非常方便地分割词组句子。但是对于2维图像来说，其中的目标实体的大小是不可控的，有的目标较大，横跨了多个patch，也有的目标很小，就包含在某一个patch中。这时给定size为16的patch则无法有效地处理不同大小的目标。尤其是对于目标检测及分割等任务中的较小目标，无法实现像素级别的检测。

2. “high resolution of pixels”，无法直接将Transformer及MLP适用于CV任务的一个主要问题，就是如果按照像素进行处理的话计算量过大。ViT中虽然通过分patch的操作，实现了计算量上的压缩，但Attention的计算过程，关于图像size的大小成二次方增长。因此虽然ViT等工作在ImageNet数据集上给出了较好结果，但面对更大的图像，则无法实现有效地处理。

Motivation

针对以上问题，本文希望能够提出一种基于Transformer的模型。它拥有像ResNet等网络的层级架构，能够有效处理不同大小的目标，同时能够直接使用CNN中的FPN,U-Net等技术。同时计算复杂度关于图像大小线性增长，从而可以

最低0.47元/天解锁文章

星月野

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
DL-Paper精读：Swin Transformer

Swin Transformer: Hierarchical Vision Transformer using Shifted Windowshttps://arxiv.org/abs/2103.14030Transformer在Vision领域的各项任务上已经占据了sota的地位，目前精度最高的模型便是Swin Transformer，一个针对于图像任务的实体分辨率问题进行优化的工作，今天对其进行详细的研究。Current works and LimitationViT及Deit等工作..
复制链接

扫一扫

专栏目录