【YOLOv8改进】 YOLOv8 更换骨干网络之 GhostNet ：通过低成本操作获得更多特征 (论文笔记+引入代码).md

最新推荐文章于 2024-09-28 22:57:40 发布

丙音

最新推荐文章于 2024-09-28 22:57:40 发布

阅读量1k

点赞数 25

文章标签： YOLO 网络论文阅读

本文链接：https://blog.csdn.net/m0_63430863/article/details/139874203

版权

YOLO目标检测创新改进与实战案例专栏

专栏目录： YOLO有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例

专栏链接: YOLO基础解析+创新改进+实战案例

摘要

我们提出了SegNeXt，一种用于语义分割的简单卷积网络架构。最近基于变换器的模型由于自## 摘要

在嵌入式设备上部署卷积神经网络（CNNs）由于有限的内存和计算资源而变得困难。特征图中的冗余是那些成功的CNNs的一个重要特性，但在神经架构设计中很少被研究。本文提出了一种新颖的Ghost模块，用于通过低成本操作生成更多的特征图。基于一组内在特征图，我们应用一系列低成本的线性变换来生成许多能够充分揭示内在特征信息的幽灵特征图。所提出的Ghost模块可以作为一个即插即用的组件来升级现有的卷积神经网络。设计了Ghost瓶颈来堆叠Ghost模块，然后可以轻松建立轻量级的GhostNet。在基准测试上进行的实验表明，所提出的Ghost模块是基线模型中卷积层的一个令人印象深刻的替代品，而我们的GhostNet在相似的计算成本上可以实现比MobileNetV3更高的识别性能（例如，ImageNet ILSVRC-2012分类数据集上的75.7%的top-1准确率）。

创新点

GhostNet的创新点主要包括：

Ghost模块: 提出一种新的Ghost模块，通过低成本操作生成更多的特征图。该模块首先使用一部分原始特征图，然后通过应用一系列简单的线性变换（廉价操作）生成更多的特征图（称为Ghost特征图），这些特征图能够充分揭示原始特征中的信息。
高效性: 通过减少所需的参数和计算复杂度，Ghost模块显著降低了卷积神经网络的资源消耗。这使得GhostNet特别适合在资源受限的嵌入式设备上部署。
可插拔组件: Ghost模块设计为一个即插即用的组件，可以轻松集成到现有的卷积神经网络中，以提高其效率和性能。
Ghost Bottlenecks: 设计了特殊的Ghost瓶颈结构来堆叠Ghost模块，进一步优化网络架构，提高了网络的性能和效率。
轻量级GhostNet架构: 在Ghost模块的基础上构建了轻量级的GhostNet网络，该网络通过替换传统的卷积层来降低计算成本，同时保持或超越现有轻量级模型的性能。

这些创新点共同使GhostNet成为一个高效、轻量级且性能卓越的神经网络架构，特别适合在计算和存储资源有限的设备上进行高性能计算视觉任务。

摘要

创新点

GhostNet的创新点主要包括：

Ghost模块: 提出一种新的Ghost模块，通过低成本操作生成更多的特征图。该模块首先使用一部分原始特征图，然后通过应用一系列简单的线性变换（廉价操作）生成更多的特征图（称为Ghost特征图），这些特征图能够充分揭示原始特征中的信息。
高效性: 通过减少所需的参数和计算复杂度，Ghost模块显著降低了卷积神经网络的资源消耗。这使得GhostNet特别适合在资源受限的嵌入式设备上部署。
可插拔组件: Ghost模块设计为一个即插即用的组件，可以轻松集成到现有的卷积神经网络中，以提高其效率和性能。
Ghost Bottlenecks: 设计了特殊的Ghost瓶颈结构来堆叠Ghost模块，进一步优化网络架构，提高了网络的性能和效率。
轻量级GhostNet架构: 在Ghost模块的基础上构建了轻量级的GhostNet网络，该网络通过替换传统的卷积层来降低计算成本，同时保持或超越现有轻量级模型的性能。

这些创新点共同使GhostNet成为一个高效、轻量级且性能卓越的神经网络架构，特别适合在计算和存储资源有限的设备上进行高性能计算视觉任务。

注意力在编码空间信息方面的效率而在语义分割领域占据主导地位。在本文中，我们展示了卷积注意力是一种比变换器中的自注意力机制更高效和有效的编码上下文信息的方式。通过重新审视成功的分割模型所拥有的特征，我们发现了几个关键组件，这些组件导致了分割模型性能的提升。这激励我们设计了一种新颖的卷积注意力网络，该网络使用廉价的卷积操作。没有任何花哨的技巧，我们的SegNeXt在包括ADE20K、Cityscapes、COCO-Stuff、Pascal VOC、Pascal Context和iSAID在内的流行基准测试上，显著提高了先前最先进方法的性能。值得注意的是，SegNeXt超越了EfficientNet-L2 w/ NAS-FPN，在Pascal VOC 2012测试排行榜上仅使用1/10的参数就达到了90.6%的mIoU。平均而言，与最先进的方法相比，SegNeXt在ADE20K数据集上的mIoU提高了约2.0%，同时计算量相同或更少。

创新点

基本原理

MSCA 主要由三个部分组成：（1）一个深度卷积用于聚合局部信息；（2）多分支深度卷积用于捕获多尺度上下文信息；（3）一个 1 × 1 逐点卷积用于模拟特征中不同通道之间的关系。1 × 1 逐点卷积的输出被直接用作卷积注意力的权重，以重新权衡 MSCA 的输入。

MSCA 可以写成如下形式：其中 F 代表输入特征，Att 和 Out 分别为注意力权重和输出，⊗ 表示逐元素的矩阵乘法运算，DWConv 表示深度卷积，Scalei (i ∈ {0, 1, 2, 3}) 表示上图右边侧图中的第 i 个分支，Scale0 为残差连接。遵循[130]，在 MSCA 的每个分支中，SegNeXt 使用两个深度条带卷积来近似模拟大卷积核的深度卷积。每个分支的卷积核大小分别被设定为 7、11 和 21。选择深度条带卷积主要考虑到以下两方面原因：一方面，相较于普通卷积，条带卷积更加轻量化。为了模拟核大小为 7 × 7 的标准二维卷积，只需使用一对 7 × 1 和 1 × 7 的条带卷积。另一方面，在实际的分割场景中存在一些条状物体，例如人和电线杆。因此，条状卷积可以作为标准网格状的卷积的补充，有助于提取条状特征。