YOLOv8魔改系列：轻量级的CloFormer助力YOLOv8在速度和精度上飞速涨点

轻量级CloFormer提升YOLOv8：速度与精度双增

＆瞎学的小曹ζ

于 2024-04-05 20:37:11 发布

阅读量653

点赞数 1

CC 4.0 BY-SA版权

分类专栏： YOLOv8魔改文章标签： YOLO 计算机视觉目标检测深度学习机器学习

本文链接：https://blog.csdn.net/qq_66386046/article/details/137407537

YOLOv8魔改专栏收录该内容

10 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

CloFormer是一种新的轻量级视觉Transformer，旨在提高移动设备上的性能。通过结合共享权重和上下文感知权重，AttnConv模块增强了局部特征，同时兼顾高频和低频信息。在ImageNet1K分类、目标检测和语义分割任务中，CloFormer表现出优越性能，例如CloFormer-XXS在保持低FLOPs和参数量的同时，超越了ShuffleNetV2和MobileViT。文章提供改进策略并分享了代码链接。

论文源地址：https://arxiv.org/abs/2303.17803v5

Abstract

Vision Transformers (ViTs)在各种视觉任务中表现出了有效性。然而，将它们调整到适合移动设备的大小会导致性能显著下降。因此，开发轻量级的视觉Transformer已成为研究的重要领域。本文介绍了CloFormer，一种利用上下文感知局部增强的轻量级视觉Transformer。CloFormer探索了在vanilla卷积操作中经常使用的全局共享权重与在attention中出现的特定于token的上下文感知权重之间的关系，然后作者提出了一种有效而简单的模块来捕获高频局部信息。在CloFormer中，作者引入了AttnConv，一种以attention风格进行的卷积操作。所提出的AttnConv使用共享权重来聚合局部信息，并使用精心设计的上下文感知权重来增强局部特征。AttnConv与使用池化来减少FLOPs的vanilla attention的结合，使CloFormer能够感知高频和低频信息。在图像分类、目标检测和语义分割方面进行了大量实验，证明了CloFormer的优越性。代码可https://github.com/qhfan/CloFormer中找到。