YOLOv8魔改系列:轻量级的CloFormer助力YOLOv8在速度和精度上飞速涨点

CloFormer是一种新的轻量级视觉Transformer,旨在提高移动设备上的性能。通过结合共享权重和上下文感知权重,AttnConv模块增强了局部特征,同时兼顾高频和低频信息。在ImageNet1K分类、目标检测和语义分割任务中,CloFormer表现出优越性能,例如CloFormer-XXS在保持低FLOPs和参数量的同时,超越了ShuffleNetV2和MobileViT。文章提供改进策略并分享了代码链接。
摘要由CSDN通过智能技术生成

论文源地址:https://arxiv.org/abs/2303.17803v5

Abstract

Vision Transformers (ViTs)在各种视觉任务中表现出了有效性。然而,将它们调整到适合移动设备的大小会导致性能显著下降。因此,开发轻量级的视觉Transformer已成为研究的重要领域。本文介绍了CloFormer,一种利用上下文感知局部增强的轻量级视觉Transformer。CloFormer探索了在vanilla卷积操作中经常使用的全局共享权重与在attention中出现的特定于token的上下文感知权重之间的关系,然后作者提出了一种有效而简单的模块来捕获高频局部信息。在CloFormer中,作者引入了AttnConv,一种以attention风格进行的卷积操作。所提出的AttnConv使用共享权重来聚合局部信息,并使用精心设计的上下文感知权重来增强局部特征。AttnConv与使用池化来减少FLOPs的vanilla attention的结合,使CloFormer能够感知高频和低频信息。在图像分类、目标检测和语义分割方面进行了大量实验,证明了CloFormer的优越性。代码可https://github.com/qhfan/CloFormer中找到。

详细结构与测试结果

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

&瞎学的小曹ζ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值