文章目录
摘要
CloFormer是清华大学在今年发表的轻量级主干网络,引入了AttnConv,一种attention风格的卷积算子。所提出的AttnConv使用共享权重来聚合局部信息,并配置精心设计的上下文感知权重来增强局部特征。AttnConv和普通attention的结合使用池化来减少CloFormer中的FLOPs,使模型能够感知高频和低频信息。这篇文章主要向大家讲解如何将CloFormer加入到YoloV8中。
论文翻译
摘要
论文链接:https://arxiv.org/abs/2303.17803v5
视觉transformer (vit)已被证明在各种视觉任务中是有效的。然而,将它们调整为移动友好的大小会导致性能显著下降。因此,开发轻量级视觉transformer已成为一个关键的研究领域。本文提出CloFormer,一种轻量级的视觉transformer,利用上下文感知局部增强。CloFormer探索了普通卷积算子中经常使用的全局共享权重和特定token的上下文感知权重在注意力中的表现,提出了一个有效而直接的模块来捕获高频局部信息。在CloFormer中,引入了AttnConv,一种attention风格的卷积算子。所提出的AttnConv使用共享权重来聚合局部信息,并配置精心设计的上下文感知权重来增强局部特征。AttnConv和普通at