【YOLOv8改进-SPPF】 Focal Modulation :使用焦点调制模块替代SPPF

YOLOv8目标检测创新改进与实战案例专栏

专栏目录: YOLOv8有效改进系列及项目实战目录 包含卷积,主干 注意力,检测头等创新机制 以及 各种目标检测分割项目实战案例

专栏链接: YOLOv8基础解析+创新改进+实战案例

介绍

image-20240716090707285

摘要

我们提出了焦点调制网络(简称FocalNets),在其中完全用焦点调制模块替代了自注意力(SA),用于建模视觉中的标记交互。焦点调制由三个组件组成:(i)焦点上下文化,通过一系列深度卷积层实现,从短距离到长距离编码视觉上下文,(ii)门控聚合,选择性地将上下文聚合到每个查询标记的调制器中,以及(iii)逐元素仿射变换,将调制器注入查询标记。大量实验表明,FocalNets展现了非凡的可解释性(图1),并在图像分类、目标检测和分割任务中以类似的计算成本超越了最先进的SA模型(例如,Swin和Focal Transformers)。具体来说,FocalNets的小型和基础版本在ImageNet-1K上分别达到了82.3%和83.9%的top-1准确率。在ImageNet-22K上以224×224分辨率进行预训练后,微调到224×224和384×384分辨率时分别达到了86.5%和87.3%的top-1准确率。在使用Mask R-CNN进行目标检测时,FocalNet基础版本以1×训练计划超越了Swin对照组2.1个点,并且已经超过了使用3×训练计划的Swin(49.0对48.5)。在使用UPerNet进行语义分割时,FocalNet基础版本在单尺度下超越了Swin 2.4个点,并且在多尺度下也超过了Swin(50.5对49.7)。使用大型FocalNet和Mask2former,我们在ADE20K语义分割任务中达到了58.5的mIoU,并在COCO全景分割任务中达到了57.9的PQ。使用巨型FocalNet和DINO,我们在COCO minival和test-dev上分别达到了64.3和64.4的mAP,超越了诸如Swinv2-G和BEIT-3等基于注意力的大型模型。这些令人鼓舞的结果表明,焦点调制可能正是我们在视觉领域所需要的。

文章链接

论文地址:论文地址

代码地址:代码地址

基本原理

Focal Modulation机制旨在结合CNNs和自注意力机制的优点,通过在不同的空间尺度上聚焦(Focal)和调制(Modulation)特征来增强模型的表达能力。具体来说,Focal Modulation包含以下几个关键组件:

  1. 局部特征聚焦(Local Focalization

  • 23
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YOLO大师

你的打赏,我的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值