【YOLOv8改进-SPPF】 Focal Modulation :使用焦点调制模块替代SPPF

YOLO大师

已于 2024-07-17 16:57:14 修改

阅读量722

点赞数 23

分类专栏： YOLOV8基础解析+创新改进+实战案例文章标签： YOLO 目标跟踪人工智能目标检测 yolov8 机器学习

于 2024-07-16 09:18:13 首次发布

原创文章，禁止任何形式转载！

本文链接：https://blog.csdn.net/shangyanaf/article/details/140456375

版权

YOLOV8基础解析+创新改进+实战案例专栏收录该内容

137 篇文章 85 订阅 ¥69.90 ¥99.00

订阅专栏

YOLOv8目标检测创新改进与实战案例专栏

专栏目录： YOLOv8有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例

专栏链接: YOLOv8基础解析+创新改进+实战案例

介绍

摘要

我们提出了焦点调制网络（简称FocalNets），在其中完全用焦点调制模块替代了自注意力（SA），用于建模视觉中的标记交互。焦点调制由三个组件组成：（i）焦点上下文化，通过一系列深度卷积层实现，从短距离到长距离编码视觉上下文，（ii）门控聚合，选择性地将上下文聚合到每个查询标记的调制器中，以及（iii）逐元素仿射变换，将调制器注入查询标记。大量实验表明，FocalNets展现了非凡的可解释性（图1），并在图像分类、目标检测和分割任务中以类似的计算成本超越了最先进的SA模型（例如，Swin和Focal Transformers）。具体来说，FocalNets的小型和基础版本在ImageNet-1K上分别达到了82.3%和83.9%的top-1准确率。在ImageNet-22K上以224×224分辨率进行预训练后，微调到224×224和384×384分辨率时分别达到了86.5%和87.3%的top-1准确率。在使用Mask R-CNN进行目标检测时，FocalNet基础版本以1×训练计划超越了Swin对照组2.1个点，并且已经超过了使用3×训练计划的Swin（49.0对48.5）。在使用UPerNet进行语义分割时，FocalNet基础版本在单尺度下超越了Swin 2.4个点，并且在多尺度下也超过了Swin（50.5对49.7）。使用大型FocalNet和Mask2former，我们在ADE20K语义分割任务中达到了58.5的mIoU，并在COCO全景分割任务中达到了57.9的PQ。使用巨型FocalNet和DINO，我们在COCO minival和test-dev上分别达到了64.3和64.4的mAP，超越了诸如Swinv2-G和BEIT-3等基于注意力的大型模型。这些令人鼓舞的结果表明，焦点调制可能正是我们在视觉领域所需要的。

文章链接

论文地址：论文地址

代码地址：代码地址

基本原理

Focal Modulation机制旨在结合CNNs和自注意力机制的优点，通过在不同的空间尺度上聚焦（Focal）和调制（Modulation）特征来增强模型的表达能力。具体来说，Focal Modulation包含以下几个关键组件：

局部特征聚焦（Local Focalization

了解本专栏

YOLO大师

关注

23
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
【YOLOv8改进-SPPF】 Focal Modulation :使用焦点调制模块替代SPPF

我们提出了焦点调制网络（简称FocalNets），在其中完全用焦点调制模块替代了自注意力（SA），用于建模视觉中的标记交互。焦点调制由三个组件组成：（i）焦点上下文化，通过一系列深度卷积层实现，从短距离到长距离编码视觉上下文，（ii）门控聚合，选择性地将上下文聚合到每个查询标记的调制器中，以及（iii）逐元素仿射变换，将调制器注入查询标记。
复制链接

扫一扫