论文源地址:https://arxiv.org/abs/2303.17803v5
Abstract
Vision Transformers (ViTs)在各种视觉任务中表现出了有效性。然而,将它们调整到适合移动设备的大小会导致性能显著下降。因此,开发轻量级的视觉Transformer已成为研究的重要领域。本文介绍了CloFormer,一种利用上下文感知局部增强的轻量级视觉Transformer。CloFormer探索了在vanilla卷积操作中经常使用的全局共享权重与在attention中出现的特定于token的上下文感知权重之间的关系,然后作者提出了一种有效而简单的模块来捕获高频局部信息。在CloFormer中,作者引入了AttnConv,一种以attention风格进行的卷积操作。所提出的AttnConv使用共享权重来聚合局部信息,并使用精心设计的上下文感知权重来增强局部特征。AttnConv与使用池化来减少FLOPs的vanilla attention的结合,使CloFormer能够感知高频和低频信息。在图像分类、目标检测和语义分割方面进行了大量实验,证明了CloFormer的优越性。代码可https://github.com/qhfan/CloFormer中找到。
详细结构与测试结果
如下图
所示,
轻量级CloFormer提升YOLOv8:速度与精度双增
CloFormer是一种新的轻量级视觉Transformer,旨在提高移动设备上的性能。通过结合共享权重和上下文感知权重,AttnConv模块增强了局部特征,同时兼顾高频和低频信息。在ImageNet1K分类、目标检测和语义分割任务中,CloFormer表现出优越性能,例如CloFormer-XXS在保持低FLOPs和参数量的同时,超越了ShuffleNetV2和MobileViT。文章提供改进策略并分享了代码链接。
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



