论文源地址:https://arxiv.org/abs/2303.17803v5
Abstract
Vision Transformers (ViTs)在各种视觉任务中表现出了有效性。然而,将它们调整到适合移动设备的大小会导致性能显著下降。因此,开发轻量级的视觉Transformer已成为研究的重要领域。本文介绍了CloFormer,一种利用上下文感知局部增强的轻量级视觉Transformer。CloFormer探索了在vanilla卷积操作中经常使用的全局共享权重与在attention中出现的特定于token的上下文感知权重之间的关系,然后作者提出了一种有效而简单的模块来捕获高频局部信息。在CloFormer中,作者引入了AttnConv,一种以attention风格进行的卷积操作。所提出的AttnConv使用共享权重来聚合局部信息,并使用精心设计的上下文感知权重来增强局部特征。AttnConv与使用池化来减少FLOPs的vanilla attention的结合,使CloFormer能够感知高频和低频信息。在图像分类、目标检测和语义分割方面进行了大量实验,证明了CloFormer的优越性。代码可https://github.com/qhfan/CloFormer中找到。