Hyper-YOLO：在目标检测中加入超图计算

最新推荐文章于 2025-03-12 20:51:34 发布

ronghuaiyang

最新推荐文章于 2025-03-12 20:51:34 发布

阅读量2k

点赞数 3

文章标签： YOLO 目标检测人工智能计算机视觉

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg5ODAzMTkyMg==&mid=2247497564&idx=1&sn=0019fc8467f942728240f887387c3acd&chksm=c128dcbc0385ab7b3508d4cec63fa522bd0a82485e64ed64fd7fac0a6487f3edd3dfe7f4def0&scene=126&sessionid=0

版权

导读

使用超图计算的方法来进行高阶特征的交互。

摘要

我们介绍了一种新的物体检测方法Hyper-YOLO，该方法集成了超图计算来捕捉视觉特征之间的复杂高阶相关性。传统的YOLO模型虽然强大，但在其颈部设计中存在局限性，这限制了跨层级特征的整合以及高阶特征间相互关系的利用。为了解决这些挑战，我们提出了基于超图计算的语义收集与分散框架(Hypergraph Computation Empowered Semantic Collecting and Scattering, HGCSCS)，它将视觉特征图转换到语义空间，并构建一个超图来进行高阶消息传播。这使得模型能够同时获取语义和结构信息，超越了传统以特征为中心的学习方式。Hyper-YOLO在其主干网络中集成了提出的混合聚合网络(MANet)以增强特征提取，并在其颈部引入了基于超图的跨层级和跨位置表示网络(Hypergraph-Based Cross-Level and Cross-Position Representation Network, HyperC2Net)。HyperC2Net在五个尺度上运行，并摆脱了传统的网格结构，允许在层级和位置之间进行复杂的高阶交互作用。这些组件的协同作用使Hyper-YOLO成为各种规模模型中的前沿架构，这一点在COCO数据集上的卓越表现得到了证明。具体来说，Hyper-YOLO-N在APval上显著超过了先进的YOLOv8-N和YOLOv9-T，分别提高了12%和9%的APval。源代码可在以下网址访问：https://github.com/iMoonLab/Hyper-YOLO。

1、介绍

YOLO系列作为物体检测领域的主要流派之一脱颖而出，提供了多种优势以满足不同应用场景的需求。YOLO的架构主要由两个部分组成：主干网络和颈部。主干网络用于特征提取，并已得到广泛研究；而颈部则负责多尺度特征的融合，为不同大小的物体检测提供了坚实的基础。本文特别强调颈部的作用，因为它对于提高模型在不同尺度下检测物体的能力至关重要。

当前的YOLO模型通常采用PANet作为其颈部结构，该结构通过自顶向下和自底向上的路径促进不同尺度信息的全面融合。然而，PANet的能力主要局限于相邻层之间的特征融合，并不足以充分解决跨层级特征的集成问题。相反，以Gold-YOLO为代表的聚集-分散颈部设计促进了层间的信息交换，但仍未能实现特征图内的跨位置交互。此外，它没有彻底探索特征间的关系潜力，特别是那些涉及高阶相关性的关系。高阶相关性指的是不同尺度、位置和语义级别的特征之间存在的复杂且往往是非线性的关系，这对于理解视觉数据中深层次的上下文和交互至关重要。注意到低级视觉特征及其相关性与物体检测任务紧密相关。将这些基本特征与高级语义信息相结合对于准确识别和定位场景中的物体至关重要。探索低级特征背后用于语义分析的高阶相关性仍然是许多计算机视觉任务中一项具有挑战性但又至关重要的课题。这一现象——即挖掘此类高阶关系常常被忽视——可能会限制视觉任务的性能。

实际上，超图常被用来表示复杂的高阶相关性，因为它们比简单图具有更强的表达力。简单图中的边只能连接两个顶点，这极大地限制了其表达能力；而在超图中，超边可以连接两个或更多顶点，从而使模型能够更好地模拟更为复杂的高阶关系。与简单图相比，超图能够捕捉实体间的更丰富的一组交互作用，这对于需要理解复杂和多方关系的任务至关重要，例如在计算机视觉中的物体检测，其中特征图间的跨层级和跨位置相关性是关键。

不同于大多数先前的工作专注于增强特征提取的主干网络，我们提出了基于超图计算的语义收集与分散框架(Hypergraph Computation Empowered Semantic Collecting and Scattering, HGC-SCS)。该框架巧妙构思，旨在通过将视觉主干网络提取的特征图转换到抽象的语义空间，并随后构建复杂的超图结构来增强这些特征图。超图充当了一个媒介，使特征在语义空间内实现高阶消息传播。这种方法赋予了视觉主干网络同时吸收语义信息和复杂结构信息的双重能力，从而克服了传统以语义特征为中心的学习的局限性，并将性能提升至新的高度。

基于上述HGC-SCS框架，我们介绍了Hyper-YOLO，这是一种基于超图计算的新YOLO方法。Hyper-YOLO首次将超图计算集成到视觉目标检测网络的颈部组件中。通过对从主干网络提取的特征图建模其内在的复杂高阶关联性，Hyper-YOLO显著提高了物体检测性能。就主干网络架构而言，Hyper-YOLO集成了混合聚合网络(MANet)，该网络融合了三种独特的基础结构以丰富信息流并增强特征提取能力，建立在YOLOv8的基础上。在颈部方面，利用所提出的HGC-SCS框架，我们实现了基于超图的跨层级和跨位置表示网络(Hypergraph-Based Cross-Level and Cross-Position Representation Network, HyperC2Net)。与传统颈部设计不同，HyperC2Net在五个不同的尺度上融合特征，同时摆脱了视觉特征图的网格结构，从而促进了层级和位置之间的高阶消息传播。主干网络和颈部的综合增强使得Hyper-YOLO成为一个开创性的架构。实验结果（图1）表明，在COCO数据集上，它在性能方面表现出显著的优势，证实了这种复杂方法在推进物体检测领域方面的有效性。我们的贡献可以总结如下：

我们提出了基于超图计算的语义收集与分散框架(HGC-SCS)，增强了视觉主干网络对高阶信息的建模和学习能力。
借助提出的HGC-SCS框架，我们开发了HyperC2Net，这是一个物体检测颈部，能够在语义层和位置之间实现高阶消息传递。HyperC2Net显著提高了颈部提炼高阶特征的能力。
我们提出了混合聚合网络(MANet)，该网络集成了三种类型的块以丰富信息流，从而增强了主干网络的特征提取能力。
我们介绍了Hyper-YOLO，该模型通过集成超图计算增强了对高阶信息的感知能力，从而在物体检测方面取得了进步。具体来说，我们的Hyper-YOLO-N在COCO数据集上APval指标上实现了显著提升，与YOLOv8-N相比提高了12%，与YOLOv9-T相比提高了9%。

2、相关工作

A. YOLO系列目标检测

YOLO系列一直是实时物体检测领域的基石，从YOLOv1的单阶段检测发展到了YOLOv8的性能优化模型。每一次迭代都带来了显著的进步，从YOLOv4的结构改进到YOLOv7的E-ELAN主干网络，都体现了这一点。YOLOX引入了无锚点检测，而Gold-YOLO通过其聚集-分散机制增强了特征融合。尽管出现了RT-DETR和其他检测器，但由于YOLO系列有效利用了CSPNet、ELAN以及改进的PANet或FPN进行特征整合，并结合了来自YOLOv3和FCOS的复杂预测头，因此它仍然非常流行。YOLOv9引入了可编程梯度信息和Generalized Efficient Layer Aggregation Network，以最小化深层网络传输过程中的信息损失。在此基础上，本文提出了Hyper-YOLO，这是一种先进的方法，利用超图计算来增强YOLO框架对复杂相关性的学习能力。Hyper-YOLO旨在改善层次特征的学习和整合，进一步推动物体检测性能的边界。

B. 超图学习方法

超图可以用来捕捉这些复杂的高阶关联性。超图通过其超边连接多个节点，在模拟复杂关系方面表现出色，这一点在社交网络分析、药物-靶标相互作用建模以及大脑网络分析等多个领域都有所体现。超图学习方法已经成为一种强大的工具，用于捕捉数据中的复杂和高阶相关性，这是传统的基于图的技术可能无法充分表示的。正如Gao等人所讨论的，超边的概念通过允许多个节点同时交互，促进了这些复杂关系的建模。超图神经网络(Hypergraph Neural Networks, HGNN)利用这些关系，通过谱方法直接从超图结构中学习。在此基础上，一般化超图神经网络(Hypergraph Neural Networks+, HGNN+)引入了空间方法来实现在顶点之间的高阶消息传播，进一步扩展了超图学习的能力。尽管有了这些进展，超图学习在计算机视觉任务中的应用仍相对未被充分探索，特别是在建模和学习高阶关联性方面。在本文中，我们将探讨如何利用超图计算来处理物体检测任务，旨在通过整合超图所建模的微妙关系信息来提高分类和定位的准确性。

3、超图计算赋能的语义收集与分散框架

与计算机视觉中的表示学习仅处理视觉特征不同，超图计算方法同时处理特征和高阶结构。大多数超图计算方法依赖于固有的超图结构，而在大多数计算机视觉场景中无法获得这些结构。在这里，我们介绍超图计算在计算机视觉中的通用范式，包括超图构造和超图卷积。给定从神经网络提取的特征图X，采用超图构造函数f : X → G来估计语义空间中特征点之间的潜在高阶相关性。然后，利用谱方法或空间方法的超图卷积来通过超图结构在特征点之间传播高阶消息。生成的高阶特征称为Xhyper。通过将高阶关系信息整合进Xhyper，这种超图计算策略解决了原始特征图X中高阶相关性的不足。由此产生的混合特征图，记为X′，是从X和Xhyper的融合中产生。这一合成过程最终产生了语义增强的视觉表示X′，它从语义和高阶结构两个角度提供了更全面的视觉特征表示。

这里，我们设计了一个适用于计算机视觉的通用框架，命名为基于超图计算的语义收集与分散框架(Hypergraph Computation Empowered Semantic Collecting and Scattering, HGCSCS)。给定从CNN或其他主干网络提取的特征图，我们的框架首先收集这些特征并将它们融合以构造语义空间中的混合特征包Xmixed。第二步，我们估计潜在的高阶相关性以在语义空间中构建超图结构。为了充分利用这些高阶结构信息，可以采用一些相关的超图计算方法。这样，可以生成包含高阶结构和语义信息的高阶感知特征Xhyper。最后一步，我们将高阶结构信息分散到每个输入特征图。HGC-SCS框架可以公式化如下：

其中{X1,X2,…}表示从视觉主干网络生成的基本特征图。“HyperComputation”表示第二步，包括超图构造和超图卷积，它捕捉语义空间中的潜在高阶结构信息并生成高阶感知特征Xhyper。最后一行中，ϕ(⋅)表示特征融合函数。{X1′,X2′,…}表示增强后的视觉特征图。接下来，我们将介绍一个基于我们的HGC-SCS框架在物体检测中的实例，名为HyperC2Net。

4、方法

本节首先介绍YOLO的相关符号以及所提出的HyperYOLO框架。接下来，我们将详细介绍所提出的两个核心模块，包括基础块（MANet）和颈部结构（HyperC2Net）。最后，我们分析Hyper-YOLO与其他YOLO方法之间的关系。

A. 基础知识

YOLO系列方法通常由两个主要组件组成：主干网络和颈部结构。主干网络负责提取基本的视觉特征，而颈部结构有助于融合多尺度特征以实现最终的目标检测。本文提出了专门针对这两个组件的增强策略。为了便于在本文中描述，我们将颈部结构的三个尺度输出表示为{N3, N4, N5}，分别对应小尺度、中尺度和大尺度检测。在主干网络的特征提取阶段，我们进一步将其分为五个阶段：{B1, B2, B3, B4, B5}，这些代表不同语义级别的特征。数字越大表示该特征是由网络更深的层次提取的更高层次的语义特征。更多细节请参见部分A。

B. Hyper-YOLO 概览

我们的Hyper-YOLO框架保持了典型的YOLO方法的整体架构，包括主干网络和颈部结构，给定一张图像，Hyper-YOLO的主干网络利用提出的MANet作为其核心计算模块，从而增强了传统YOLOv8中的C2f模块所具备的特征辨识能力。与传统的YOLO架构不同，Hyper-YOLO接收五个主要特征集{B1, B2, B3, B4, B5}。在一种新的步骤中，基于超图计算理论的Hyper-YOLO颈部结构(HyperC2Net)整合了这五个特征集之间跨层级和跨位置的信息，最终生成了三个不同尺度上的最终语义特征{N3, N4, N5}。这些层次化的语义特征随后被用于最终的目标检测任务。

C. 混合聚合网络

对于Hyper-YOLO的主干网络，为了增强基础网络的特征提取能力，我们设计了混合聚合网络（MANet），如图2所示。该架构协同地融合了三种典型的卷积变体：用于通道级特征重新校准的1×1旁路卷积、用于高效空间特征处理的深度可分离卷积（DSConv）以及用于增强特征层次集成的C2f模块。这种融合在训练阶段产生了更加多样化和丰富的梯度流，显著增强了每个关键阶段的基础特征所包含的语义深度。我们的MANet可以表述如下：

其中的通道数为2c，而每一个的通道数均为c。最后，我们通过一个拼接操作后跟一个1×1卷积来融合并压缩这三种特征的语义信息，从而生成通道数为2c的，具体如下：

D. 基于超图的跨层级与跨位置表征网络

至于我们的Hyper-YOLO的颈部结构，在本小节中，为了全面融合来自骨干网络的跨层级与跨位置信息，我们进一步提出了基于超图的跨层级与跨位置表征网络（HyperC2Net），如图4所示。HyperC2Net是我们提出的HGC-SCS框架的一种实现，能够捕捉语义空间中的潜在高阶相关性。

超图构建：如图S1所示，我们的骨干网络被划分为五个离散阶段。这些阶段的特征图表示为。为了利用超图计算来阐明基础特征之间的复杂高阶关系，我们首先执行五个基特征的通道级联接，从而合成跨层级视觉特征。一个超图G = {V, E}通常由顶点集V和超边集E定义。在我们的方法中，我们将基于网格的视觉特征分解为构成超图的顶点集V。为了建模语义空间内的邻域关系，使用距离阈值构建每个特征点的-球体作为超边，如图3所示。-球体是指包含中心特征点周围一定距离阈值内所有特征点的超边。在计算中，超图G通常由其关联矩阵H表示。
超图卷积：为了促进在超图结构上的高阶消息传递，我们利用典型的空间域超图卷积并添加额外的残差连接对顶点特征进行高阶学习，具体如下：

其中和是两个邻域指示函数。是可训练参数。为了计算方便，两阶段超图消息传递的矩阵形式可以定义为：

其中和分别代表顶点和超边的对角度矩阵。

HGC-SCS框架的一个实例：通过结合前面定义的超图构建和卷积策略，我们引入了HGC-SCS框架的一个精简实例，称为基于超图的跨层级与跨位置表示网络（HyperC2Net），其总体定义如下：

其中 (·||·) 表示矩阵拼接操作。是融合函数，如图 4 所示（语义散射模块和自底向上模块）。在我们的 HyperC2Net 中，本质上包含跨层级信息，因为它融合了来自多个层级的骨干特征。此外，通过将网格特征分解为语义空间内的一组特征点，并基于距离构建超边，我们的方法允许在点集内不同位置的顶点间进行高阶的消息传递。这种能力有助于捕捉跨位置的信息，丰富了模型对语义空间的理解。

E. 比较与分析

YOLO系列的进步主要集中在骨干网络和颈部组件的改进上，特别关注作为每次迭代进化的关键要素的骨干网络。例如，最初的 YOLOv1引入了 DarkNet 骨干网络，此后经历了多轮增强，比如 YOLOv7中引入的 ELAN（高效层聚合网络）模块以及 YOLOv8中推出的 C2f（跨阶段部分连接带反馈）模块。这些创新极大地促进了骨干架构的视觉特征提取能力。

相比之下，我们的 Hyper-YOLO 模型将创新重点转向颈部组件的设计。在颈部架构领域，前沿的迭代版本如 YOLOv6、YOLOv7和 YOLOv8均持续采用了 PANet（路径聚合网络）结构。同时，Gold-YOLO采用了一种创新的聚集-分配颈部机制。接下来，我们将对比 HyperYOLO 的 HyperC2Net 与这两种经典的颈部架构。

PANet 架构尽管在通过自上而下和自下而上的路径融合多尺度特征方面有效，但仍受限于仅能融合相邻层间的信息。这种局限于相邻层的融合方式固有限制了网络内部信息整合的广度。HyperC2Net 则超越了这一限制，实现了直接跨越从骨干网络产生的五级特征之间的融合。这种方法促成了更加稳健且多样化的信息流，缩小了不同深度特征间的连通性差距。值得注意的是，虽然 Gold-YOLO 引入的聚集-分配颈部机制具有跨多级融合信息的能力，但其并未天然地考虑特征图中的跨位置交互。HyperC2Net 的独到之处在于利用超图计算来捕捉特征图中潜在的复杂高阶关联。语义域中的超图卷积使得信息流不受网格约束，从而能够实现跨层级和跨位置的高阶信息传播。这种机制打破了传统网格结构的局限，使特征表示更加细致和综合。

HyperC2Net 生成的特征表示综合考虑了原始数据骨干提供的语义特征以及潜在的高阶结构特征。这种丰富的特征表示对于在目标检测任务中取得卓越性能至关重要。HyperC2Net 能够利用这些复杂的高阶关系，这相比于传统的 PANet 架构甚至最近的聚集-分配颈部机制而言是一个显著的优势，强调了高阶特征处理在推动计算机视觉领域技术进步中的价值。

5、实验

A. 实验设置

1、数据集

我们使用微软 COCO 数据集作为评估所提出的 Hyper-YOLO 模型的有效性的基准。具体来说，Train2017 子集用于训练目的，而 Val2017 子集则作为验证集。Hyper-YOLO 的性能评估是在 Val2017 子集上进行的，结果详列于表 I。

2、对比方法

我们选择了先进的 YOLO 系列方法进行比较，包括 YOLOv5、YOLOv6-3.0、YOLOv7、YOLOv8、Gold-YOLO和 YOLOv9。我们在实验中采用了它们报告的默认参数配置。

3、我们的 Hyper-YOLO 方法

我们的 Hyper-YOLO 是基于 YOLOv8 的四种尺度（-N、-S、-M、-L）开发的。因此，我们调整了 Hyper-YOLO 架构各阶段的超参数（卷积层数量、特征维度），如表 S2 所示，从而得到 Hyper-YOLO-N、Hyper-YOLO-S、Hyper-YOLO-M 和 Hyper-YOLO-L。考虑到我们的 Hyper-YOLO 在颈部引入了高阶学习，增加了参数数量，我们进一步减少了基于 Hyper-YOLO-N 的参数，形成了 Hyper-YOLO-T。具体来说，在 Hyper-YOLO-T 的 HyperC2Net 中，自底向上阶段的最后一个 C2f 被一个 1×1 卷积层替换。此外，我们注意到最新的 YOLOv9 采用了一种新的可编程梯度信息传输，并在推理过程中剪枝路径以减少参数数量同时保持准确性。基于 YOLOv9，我们开发了 HyperYOLOv1.1。具体来说，我们将 YOLOv9 的颈部替换为来自 Hyper-YOLO 的 HyperC2Net，从而使 YOLOv9 具备了高阶学习的能力。

4、其他细节

为了确保公平的比较，我们排除了所有考虑的方法使用预训练和自我蒸馏策略。此外，考虑到输入图像尺寸对评估结果的影响，我们标准化了所有实验的输入分辨率为 640×640 像素，这是该领域常见的选择。评估依据标准 COCO 平均精度（AP）指标。更多实现细节见第 A 节和第 C 节。

B. 结果与讨论

表 I 中显示的 COCO Val2017 验证集上的目标检测结果导致四个主要观察点。

首先，所提出的 Hyper-YOLO 方法在所有四种尺度下均优于其他模型。例如，在 APval 指标方面，Hyper-YOLO 在 -N 尺度下达到 41.8%，在 -S 尺度下达到 48.0%，在 -M 尺度下达到 52.0%，以及在 -L 尺度下达到 53.8%。与 Gold-YOLO 相比，Hyper-YOLO 分别提高了 2.2、2.6、2.2 和 2.0。与 YOLOv8 相比，提高分别为 4.5、3.1、1.8 和 0.9。与 YOLOv9 相比，Hyper-YOLO 提高分别为 3.5、1.2、0.6 和 0.8。这些结果验证了 Hyper-YOLO 方法的有效性。

其次，值得注意的是，我们的方法不仅在性能上超越了 Gold-YOLO，而且还显著减少了参数数量。具体来说，在 -N 尺度下减少了 28%，在 -S 尺度下减少了 31%，在 -M 尺度下减少了 19%，而在 -L 尺度下减少了 25%。这主要是因为我们的 HGC-SCS 框架，它相比 Gold-YOLO 的汇聚-分散机制进一步引入了语义空间中的高阶学习。这使得我们的方法能够更有效地利用骨干网络提取的不同信息，包括跨层级和跨位置的信息，且使用更少的参数。

第三，考虑到 Hyper-YOLO 与 YOLOv8 共享相似的基础架构，我们发现所提出的 Hyper-YOLO-T 与 YOLOv8-N 相比，在参数更少的情况下（3.2M → 3.1M）实现了更高的目标检测性能（APval 从 37.3 提升到 38.5）。这表明所提出的 HyperC2Net 可以通过高阶学习实现更好的特征表示学习，进而提升检测性能。同样地，我们将 Hyper-YOLOv1.1 与 YOLOv9 进行了比较，两者使用相同的骨干网络架构，唯一的区别在于 Hyper-YOLOv1.1 使用基于超图的 HyperC2Net 作为颈部。结果显示，我们的 Hyper-YOLOv1.1 显示出显著的性能提升：HyperYOLOv1.1-T 的 APval 比 YOLOv9-T 高出 2.0，Hyper-YOLOv1.1-S 的 APval 比 YOLOv9-S 高出 1.2。这一使用相同架构在同一尺度下的公平比较验证了所提出的高阶学习方法在目标检测任务中的有效性。

最后，我们观察到，与 YOLOv8 相比，随着模型尺度减小（从 -L 到 -N），Hyper-YOLO 带来的改进变得更为显著（从 0.9 提高到 4.5）。这是因为较小的模型尺度削弱了特征提取能力和从视觉数据中获取有效信息的能力。在这种情况下，高阶学习变得必要，以便捕捉特征图语义空间中的潜在高阶关联，最终丰富用于检测头的特征。此外，基于超图的语义空间中的高阶消息传播允许不同位置和层级之间的直接信息流，增强了基础网络的特征提取能力，同时参数有限。

C. 骨干网络的消融研究

考虑到模型的尺度，在本节及下一节中，我们选择 Hyper-YOLO-S 来对骨干网络和颈部进行消融研究。

1、关于骨干网络的基本模块：我们对所提出的 MANet 进行消融实验，以验证基本模块中提出的混合汇聚机制的有效性，如表 II 所示。为了确保公平的比较，我们采用与 YOLOv8中使用的相同的 PANet作为颈部，这样两种方法之间的唯一差异就在于基本模块。实验结果明确地表明，在相同的颈部条件下，所提出的 MANet 在所有指标上均优于 C2f 模块。这种优越的表现归功于混合汇聚机制，该机制整合了三种经典结构，从而实现了更丰富的信息流动，并因此展现出更佳的性能。

2、关于不同阶段的卷积核尺寸 我们进一步对卷积核的尺寸进行了消融实验，这是决定感受野以及网络捕捉数据中的空间层次能力的一个重要因素。在我们的实验中，表示 MANet 在第i阶段使用的卷积核尺寸。由于我们的 MANet 从第二阶段开始使用混合汇聚机制，因此我们在实验中的k的配置被表示为。实验结果呈现在表 III 中。实验结果显示，将卷积核的尺寸从 3 增加到 5 确实可以提高模型的准确性。然而，对于小尺度和中尺度的目标检测而言，与混合使用不同尺寸的卷积核相比，准确性并不一定提高，而且还会导致更多的参数数量。因此，考虑到性能和参数数量之间的平衡，我们的 Hyper-YOLO 最终选择了 ([3, 5, 5, 3]) 的配置作为 MANet 中卷积核尺寸的最佳设置。

D. 颈部结构的消融研究

1、高阶与低阶学习在HGC-SCS框架中的对比，HGC-SCS框架的核心在于超图计算在语义空间中的应用，它允许特征点集之间进行高阶信息传播。为了评估其有效性，我们通过简化超图为图来进行消融研究以实现低阶学习，如表IV所示。在这种情况下，图由在一个ϵ球内的中心节点与其邻近节点相连而构建。如表IV中所示的实验结果表明，高阶学习相较于其他两种方法表现出更优的性能。理论上，低阶学习可以被视为高阶学习的一个子集，但缺乏建模复杂关联的能力。相反，高阶学习具有更强健的关联建模能力，这与更高的性能上限相对应。因此，它更容易达到更好的性能。

2、关于语义收集阶段：HGC-SCS框架的第一阶段是语义收集，该阶段决定了用于超图计算的语义空间中信息总量。我们在这个阶段进行了消融研究，如表V所示，使用了选择3、4或5个层级特征图的三种不同配置。实验结果显示，更多的特征图可以带来更加丰富的语义空间信息。这种增强的信息丰富性使得超图能够充分利用其建模复杂关联的能力。因此，包含5个特征图的输入配置实现了最佳性能。这一结果表明，当整合更多层级的特征图时，模型可以从输入数据的更全面表示中获益。加入更多特征图可能会引入来自视觉输入的更广泛语义意义和细节，使超图能够建立反映场景更完整理解的高阶连接。因此，包含5个特征图的配置对于最大化利用基于超图的复杂关联建模潜力而言是优选的。

3、关于超图计算阶段中的超图构建：进一步的消融实验被用来考察在构建超图过程中使用的距离阈值的影响，实验结果如表VI所示。与“None”配置相比（即不引入超图计算），引入超图计算后整体性能有了显著提升。“None”配置指的是未采用超图计算的情况。此外，观察到目标检测网络在阈值范围从7到9之间的性能相对稳定，仅有微小变化。然而，在阈值为6和10的情况下，性能有所下降。这种下降可归因于连接节点的数量直接影响了语义空间中特征的平滑度。较高的阈值可能导致更连通的超图，其中节点更可能共享信息，这可能导致特征过度平滑。相反，较低的阈值可能导致较不连通的超图，无法充分利用特征间的高阶关系。因此，我们的HyperYOLO选择了8作为距离阈值来构建超图。确切的值会基于实证结果确定，以平衡高度连通的超图需求与特征表示过度平滑或连接不足的风险。

E. 更多的消融研究

在本小节中，我们进行了彻底的消融研究来评估不同模型规模下Hyper-YOLO中骨干网(backbone)和颈部(neck)增强的影响，具体的结果呈现在表VII中。表的顶部列出了YOLOv8的基准性能。表的中间部分介绍了仅包含骨干网增强的Hyper-YOLO模型。而在表的底部，则展示了完全增强的Hyper-YOLO模型，这些模型同时受益于骨干网和颈部的增强。基于表VII中的实验结果，我们有三个观察结论。

首先，无论是单独还是结合使用骨干网和颈部的增强，都显著提高了-N、-S 和 -M 模型的性能，验证了我们提出的改进的有效性。其次，每个增强的效果似乎依赖于模型的规模。随着从-N 到 -S、-M 再到 -L 模型的过渡，由于骨干网改善带来的增量性能提升逐渐从2.6下降到1.5、0.8，并最终降至0.1。相反，颈部增强在整个这些尺度上始终贡献了更为实质性的提升，分别达到了1.9、1.6、1.0 和 0.8 的增益。这表明虽然骨干网中扩大感受野和宽度扩展的好处在较小的模型中更加明显，但先进的HyperC2Net颈部通过丰富语义内容并在所有尺度上提高物体检测性能提供了更为均匀的增强效果。第三，当我们专注于小物体检测（APs）时，同时具备骨干网和颈部增强的Hyper-YOLO-L模型实现了1.6的显著提升，而仅仅使用骨干网增强则带来了0.6的提升。这强调了超图建模的潜力，特别是在颈部增强中，能够捕捉小物体之间的复杂关系，并在这些具有挑战性的场景中显著提高检测性能。

F. 在实例分割任务上的更多评估

我们将Hyper-YOLO的应用扩展到了COCO数据集的实例分割任务上，确保与它的前身YOLOv8进行直接比较，采取了一致的网络修改方法：即用分割头替换检测头。实验结果展示在表VIII中。实验结果清楚地表明Hyper-YOLO获得了显著的性能提升。对于APbox，Hyper-YOLO在-N变体上表现出4.7 AP的显著增长，在-S变体上为3.3 AP，在-M变体上为2.2 AP，在-L变体上为1.4 AP。同样地，对于APmask，Hyper-YOLO也显示出显著的改进，分别为-N变体的3.3 AP，-S变体的2.3 AP，-M变体的1.3 AP，以及-L变体的0.7 AP。这些结果突显了整合到Hyper-YOLO中的改进的有效性。

G. 物体检测中高阶学习的可视化

在我们的论文中，我们已经提供了数学依据来解释基于超图的颈部结构是如何超越传统颈部设计的局限性的，传统设计通常依赖于网格状邻域结构来进行特征图内的消息传播。这一设计使高级的消息传播能够在特征的语义空间内进行。为了进一步证实基于超图的颈部结构的有效性，我们在修订后的文稿中加入了可视化内容，如图5所示。这些可视化对比了应用HyperConv层前后特征图的变化。从这些图像中可以明显看出，对于语义相似的背景（如天空和地面）的关注度有了一致的减少，同时保持了对不同场景中前景物体的关注。这证明了HyperConv通过超图计算帮助颈部更好地识别图像中语义相似的物体，从而支持检测头做出更一致的决策。

6、总结

在本文中，我们提出了Hyper-YOLO，这是一种开创性的物体检测模型，它将超图计算与YOLO架构相结合，利用视觉数据中的高阶相关性潜力。通过解决传统YOLO模型固有的局限性，特别是颈部设计无法有效整合不同层次的特征以及利用高阶关系的问题，我们在物体检测领域显著地推进了当前技术的前沿。我们的贡献为未来的物体检测框架研究和发展树立了新的基准，并为我们基于HGCCSC框架进一步探索将超图计算整合到视觉架构中铺平了道路。