《Twins: Revisiting the Design of Spatial Attention in Vision Transformers》论文阅读

作者认为:

空间注意力是非常重要的

足够大的接受野对于性能的提高是非常重要的

Vision Transformer的核心问题:

如何设计空间注意力

作者提出了两中vision Transformer结构:Twins-PCPVT和Twins-SVT

Twins-PCPVT

作者发现PVT中的global sub-sampled attention采用一个合适的位置编码是非常有效的,它的性能可以超过Swin Transformer,在这篇论文中,作者认为PVT的性能偏低的原因是因为它使用的绝对位置编码,Swin Transformer采用了相对位置编码

作者将PVT中的绝对位置编码替换为CPVT中conditional position encoding,将position encoding generator(CPE)放在每一个stage中第一个encoder block的后面

Twins-SVT

对于一个给定HxW的输入,自注意力的计算复杂度为H2𝑊2𝑑,其中d是注意力维度

作者提出了一个空间可分离的自注意力SSSA用来解决平方复杂度

SSSA由locally-grouped self-attention (LSA) 和 global sub-sampled attention (GSA)组成

Locally-grouped self-attention (LSA)

将2Dfeature maps划分为很多个sub-windows,自注意力通信只在每一个sub-window内,具体来说,feature maps被划分为mxn个sub-windows

Global sub-sampled attention (GSA)

作者使用了一个单独的representative来summarize mxn的sub-windows中的重要的信息,然后使用representative来和其他的sub-window进行通信

ImageNet-1k 分类任务

 

ADE20K 分割

 

COCO 目标检测(Retina 框架)

 

COCO 目标检测(Mask-RCNN 框架)

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值