LG-Transformer：全局和局部建模Transformer结构新作

最新推荐文章于 2025-02-23 14:20:21 发布

我爱计算机视觉

最新推荐文章于 2025-02-23 14:20:21 发布

阅读量3.4k

点赞数 1

文章标签：计算机视觉机器学习人工智能深度学习大数据

本文链接：https://blog.csdn.net/moxibingdao/article/details/118981595

版权

写在前面

近段时间，基于Transformer的结构在CV领域展现出了很大的应用潜力，已经逐渐掩盖了CNN的光芒。Transformer的缺点也很明显：计算复杂度和输入的特征大小呈平方的关系。因此直接对整张图片进行Self-Attention是不现实的，所以，最近的一些工作（比如Swin-Transformer[1]）采用了像CNN一样的分层结构，每层施加注意力的范围只在local window上，逐渐扩大Self-Attention的感知范围。

作者提出，这样的方式存在一定的缺点，因为在前面几个stage中没有对global的特征进行感知，因此，作者就提出了一种多分支的Transformer设计结构，使得Transformer在每个stage中都进同时进行全局和局部的信息感知。通过引入多分支结构，使得模型在分类任务和语义分割任务上都取得了一定的性能提升。

1. 论文和代码地址

论文：https://arxiv.org/abs/2107.04735

代码：https://github.com/ljpadam/LG-Transformer（未开源）

2. Motivation

CNN和Transformer目前是CV任务主要流行的两种结构，这两个结构的主要不同是感知范围不一样：CNN的感受野受卷积核大小的限制，因此CNN的建模范围只能在一个卷积核的感受野之内；Transformer的Self-Attention是做全局信息的建模，因此Self-Attention的感知范围是整张图片。

但是，因为Self-Attention的计算复杂度跟输入特征的大小是呈平方关系的，所以如果图片中的token数量特别大，就会导致计算量的爆炸。所以，目前的Transformer-based的模型大多都将图片的token分成很多局部的window，Self-Attention只在每个window之间进行。

但是，作者提出，