LG-Transformer:全局和局部建模Transformer结构新作

写在前面

近段时间,基于Transformer的结构在CV领域展现出了很大的应用潜力,已经逐渐掩盖了CNN的光芒。Transformer的缺点也很明显:计算复杂度和输入的特征大小呈平方的关系。因此直接对整张图片进行Self-Attention是不现实的,所以,最近的一些工作(比如Swin-Transformer[1])采用了像CNN一样的分层结构,每层施加注意力的范围只在local window上,逐渐扩大Self-Attention的感知范围。

作者提出,这样的方式存在一定的缺点,因为在前面几个stage中没有对global的特征进行感知,因此,作者就提出了一种多分支的Transformer设计结构,使得Transformer在每个stage中都进同时进行全局和局部的信息感知。通过引入多分支结构,使得模型在分类任务和语义分割任务上都取得了一定的性能提升。



1. 论文和代码地址

论文:https://arxiv.org/abs/2107.04735

代码:https://github.com/ljpadam/LG-Transformer(未开源)



2. Motivation

CNN和Transformer目前是CV任务主要流行的两种结构,这两个结构的主要不同是感知范围不一样:CNN的感受野受卷积核大小的限制,因此CNN的建模范围只能在一个卷积核的感受野之内;Transformer的Self-Attention是做全局信息的建模,因此Self-Attention的感知范围是整张图片。


但是,因为Self-Attention的计算复杂度跟输入特征的大小是呈平方关系的,所以如果图片中的token数量特别大,就会导致计算量的爆炸。所以,目前的Transformer-based的模型大多都将图片的token分成很多局部的window,Self-Attention只在每个window之间进行。

但是,作者提出,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值