【YOLOv8改进-特征融合】EVC(Explicit Visual Center) 中心化特征金字塔模块

YOLO大师

已于 2024-06-07 16:59:58 修改

阅读量1.8k

点赞数

分类专栏： YOLOV8基础解析+创新改进+实战案例文章标签： YOLO 论文阅读

于 2024-04-11 17:09:15 首次发布

原创文章，禁止任何形式转载！

本文链接：https://blog.csdn.net/shangyanaf/article/details/137645622

版权

YOLOV8基础解析+创新改进+实战案例专栏收录该内容

该专栏为热销专栏榜第32名

163 篇文章 ¥99.90 ¥299.90

订阅专栏

本文介绍了YOLOv8的改进，提出了中心化特征金字塔（CFP）和显式视觉中心（EVC）模块，以增强目标检测性能。EVC通过轻量级MLP捕捉全局依赖，而LVC聚焦局部关键区域信息，共同提升模型的全局和局部特征表示，实现在YOLOv5和YOLOX基础上的性能提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

YOLO目标检测创新改进与实战案例专栏

专栏目录： YOLO有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例

专栏链接: YOLO目标检测创新改进与实战案例

介绍

摘要

摘要 - 视觉特征金字塔在各种应用中展示了其在效率和有效性上的优势。然而，现有方法过分集中于层间特征交互，却忽略了同层特征调控，这在实践中被证明是有益的。尽管一些方法尝试借助注意力机制或视觉变换器（Vision Transformer）学习一个紧凑的同层特征表示，但它们忽略了对于密集预测任务而言重要的被遗漏的角落区域。为了解决这个问题，在本文中，我们提出了一个用于目标检测的集中化特征金字塔（CFP），它基于全局显式的集中特征调控。具体来说，我们首先提出了一个空间显式的视觉中心方案，其中一个轻量级的多层感知机（MLP）被用来捕捉全局长距离依赖性，而一个并行的可学习视觉中心机制被用来捕捉输入图像的局部角落区域。基于此，我们接着提出了一个自上而下的通用特征金字塔的全局集中调控方式，其中从最深的同层特征获得的显式视觉中心信息被用来调节前端浅层特征。与现有的特征金字塔相比，CFP不仅能够捕捉全局长距离依赖性，而且还能高效地获得一个全面且具有区分度的特征表示。在具有挑战性的MS-COCO数据集上的实验结果验证了我们提出的CFP在最先进的YOLOv5和YOLOX目标检测基线上能够实现一致的性能提升。

创新点

中心化特征金字塔（CFP）的创新点主要包括：

空间显式视觉中心方案：CFP首次提出了一种全新的空间显式视觉中心（EVC）方案，该方案通过一个轻量级的多层感知机（MLP）捕捉全局长距离依赖关系，以及通过一个并行的可学习视觉中心机制聚集输入图像的局部角落区域。这种结合了全局和局部特征的方法，有效地提升了模型对于不同尺寸和位置的目标的检测能力。
全局集中特征规范（GCR）：在特征金字塔中引入了全局集中特征规范的概念，该策略利用自上而下的方式，使用从最深层的同层特征获得的视觉中心信息来调整前端浅层特征。这种方法强化了浅层特征的表达能力，使其能够受益于深层特征的全局信息，从而提高了特征的表示力和区分度。
轻量级MLP与并行视觉中心机制：通过采用轻量级MLP来减少计算复杂度，同时确保模型能够捕捉到全局的长程依赖性。并行的视觉中心机制则专注于捕获局部的角落信息，这对于识别小物体或者在复杂场景中的目标尤为重要。

文章链接

论文地址：论文地址

代码地址：

了解本专栏