DL-Paper精读:Swin Transformer

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

https://arxiv.org/abs/2103.14030

Transformer在Vision领域的各项任务上已经占据了sota的地位,目前精度最高的模型便是Swin Transformer,一个针对于图像任务的实体分辨率问题进行优化的工作,今天对其进行详细的研究。

Current works and Limitation

ViT及Deit等工作成功地将Transformer结构引入了CV领域,通过先切片拉直再Embedding的操作,将2维CV图像转化为了类似于NLP的序列输入。然后将切片作为token序列输入Transformer结构中,通过不断地在各个patch之间进行交叉融合实现self-attention。目前在ImageNet的分类任务中取得了较好的结果。

但是对于ViT来说,有一个非常不鲁棒的因素,就是patch_size的大小设置,一般设置为16在ImageNet数据集上取得了较好的效果,但是对于更加广泛的CV任务来说,这样的做法存在两个巨大的问题:

1. “large variations in the scale of visual entities”,即目标实体的大小。在NLP任务中,每个token就是一个词,可以非常方便地分割词组句子。但是对于2维图像来说,其中的目标实体的大小是不可控的,有的目标较大,横跨了多个patch,也有的目标很小,就包含在某一个patch中。这时给定size为16的patch则无法有效地处理不同大小的目标。尤其是对于目标检测及分割等任务中的较小目标,无法实现像素级别的检测。

2. “high resolution of pixels”,无法直接将Transformer及MLP适用于CV任务的一个主要问题,就是如果按照像素进行处理的话计算量过大。ViT中虽然通过分patch的操作,实现了计算量上的压缩,但Attention的计算过程,关于图像size的大小成二次方增长。因此虽然ViT等工作在ImageNet数据集上给出了较好结果,但面对更大的图像,则无法实现有效地处理。

Motivation

针对以上问题,本文希望能够提出一种基于Transformer的模型。它拥有像ResNet等网络的层级架构,能够有效处理不同大小的目标,同时能够直接使用CNN中的FPN,U-Net等技术。同时计算复杂度关于图像大小线性增长,从而可以

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值