今天看到一篇比较有意思的研究工作Hyper-YOLO,讲的是将超图计算和传统的视觉目标检测模型进行融合设计,将视觉特征图映射到语义空间,并构建超图用于高阶信息传播实现跨层特征的融合以及高阶特征关系的利用。趁着晚上闲暇时间打算整体阅读一下,本文是对Hyper-YOLO的论文阅读记录,感兴趣的话可以参考一下,如果想要进一步了解研究工作内容的话可以移步阅读原英文论文,地址在这里,如下所示:
摘要
我们介绍了Hyper-YOLO,一种新的物体检测方法,通过整合超图计算来捕捉视觉特征之间复杂的高阶关联。传统的YOLO模型虽然强大,但在颈部设计上有局限性,限制了跨层特征的整合和高阶特征相互关系的利用。为了解决这些挑战,我们提出了超图计算增强的语义收集与散射(HGC-SCS)框架,将视觉特征图转换到语义空间并构建超图进行高阶消息传播。这使得模型能够获取语义和结构信息,超越传统的以特征为中心的学习。Hyper-YOLO在其骨干网络中集成了提出的混合聚合网络(MANet)以增强特征提取,并在其颈部引入了基于超图的跨层和跨位置表示网络(HyperC2Net)。HyperC2Net在五个尺度上运行,打破了传统的网格结构,允许在不同层和位置之间进行复杂的高阶交互。这种组件的协同作用使得Hyper-YOLO成为各种尺度模型的最先进架构,如其在COCO数据集上的优越性能所示。具体来说,Hyper-YOLO-N显著优于先进的YOLOv8-N和YOLOv9-T,分别提高了12%和9%的APval。源代码位于https://github.com/iMoonLab/Hyper-YOLO
引言
YOLO系列[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]在物体检测领域脱颖而出,成为主流方法,提供了多种优势以适应这些多样化的应用。YOLO的架构由两个主要组件组成:骨干网络[12, 13, 14, 7]和颈部[15, 16, 10]。虽然骨干网络设计用于特征提取并已得到广泛研究,但颈部负责多尺度特征的融合,为检测不同大小的物体提供了坚实的基础。本文特别强调颈部,这对于增强模型在不同尺度上检测物体的能力至关重要。
图1. 与其他SOTA YOLO系列方法在COCO数据集上的比较。
当代YOLO模型采用了PANet[16]作为其颈部,通过自上而下和自下而上的路径促进跨尺度信息的全面融合。然而,PANet的能力主要局限于相邻层之间的特征融合,并未充分解决跨层特征整合的问题。相比之下,Gold-YOLO[10]采用的收集-分发颈部设计促进了层间信息交换,但仍未能促进特征图内的跨位置交互。此外,它没有充分探索特征相互关系的潜力,特别是涉及高阶关联的潜力。高阶关联指的是不同尺度、位置和语义层次的特征之间存在的复杂且通常是非线性的关系,这对于理解视觉数据中的深层上下文和交互至关重要。注意到低级视觉特征及其关联的协同表示在物体检测任务中起着关键作用。将这些基本特征与高级语义信息整合对于在给定场景中准确识别和定位物体至关重要。在许多计算机视觉任务中,探索低级特征的高阶关联进行语义分析仍然是一个具有挑战性但至关重要的课题。这种挖掘高阶关系的常见忽视现象可能会限制视觉任务的性能。
在实践中,超图[17, 18]通常用于表示复杂的高阶关联,因为它们比简单图具有更强的表达能力。简单图中的边仅限于连接两个顶点,从而大大限制了其表达能力,而超图中的超边可以连接两个或更多顶点,从而能够建模更复杂的高阶关系。与简单图相比,超图可以捕捉多个实体之间更丰富的交互,这对于需要理解复杂和多向关系的任务至关重要,例如计算机视觉中的物体检测,其中特征图之间的跨层和跨位置关联至关重要。
与大多数专注于增强特征提取骨干网络的先前工作不同,我们提出了超图计算增强的语义收集与散射(HGC-SCS)框架。该框架巧妙地通过将视觉骨干提取的特征图转换到抽象语义空间,然后构建复杂超图结构,从而增强特征图。超图作为在语义空间中实现特征之间高阶消息传播的通道。这种方法使视觉骨干具备了吸收语义和复杂结构信息的双重能力,从而克服了传统语义特征中心学习的局限性,超越了其传统界限。
基于上述HGC-SCS框架,我们引入了Hyper-YOLO,一种基于超图计算的新YOLO方法。Hyper-YOLO首次在视觉目标检测网络的颈部组件中整合了超图计算。通过建模骨干网络提取的特征图中固有的复杂高阶关联,Hyper-YOLO显著增强了物体检测性能。在骨干架构方面,Hyper-YOLO集成了混合聚合网络(MANet),该网络融合了三种不同的基础结构,以丰富信息流并增强特征提取能力,基于YOLOv8的基础构建。在颈部方面,利用提出的HGC-SCS框架,我们实现了多尺度特征融合颈部,称为基于超图的跨层和跨位置表示网络(HyperC2Net)。与传统颈部设计不同,HyperC2Net在五个不同尺度上融合特征,同时打破了视觉特征图的网格结构,促进了跨层和跨位置的高阶消息传播。骨干和颈部的综合增强使Hyper-YOLO成为一种开创性的架构。COCO数据集上的实验结果(图1)证明了其在性能上的显著优越性,证实了这种复杂方法在推进物体检测领域的有效性。我们的贡献可以总结为:
-
提出了超图计算增强的语义收集与散射(HGC-SCS)框架,增强了视觉骨干的高阶信息建模和学习。
-
利用提出的HGC-SCS框架,开发了HyperC2Net,一种物体检测颈部,促进了语义层和位置之间的高阶消息传递。HyperC2Net显著提升了颈部提取高阶特征的能力。
-
提出了混合聚合网络(MANet),该网络融合了三种类型的块以丰富信息流,从而增强了骨干网络的特征提取能力。
-
提出了Hyper-YOLO,该模型整合了超图计算以增强模型的高阶信息感知能力,从而改进了物体检测。具体来说,我们的Hyper-YOLO-N在COCO数据集上相对于YOLOv8-N和YOLOv9-T分别提高了12%和9%的APval。
相关工作
YOLO系列物体检测器
YOLO系列一直是实时物体检测的基石,从YOLOv1[1]的单阶段检测发展到YOLOv8[8]的性能优化模型。每个版本,从YOLOv4[3]的结构改进到YOLOv7[7]的E-ELAN骨干,都带来了显著的进步。YOLOX[9]引入了无锚点检测,而Gold-YOLO[10]通过其收集-分发机制增强了特征融合。尽管出现了RT-DETR[19]和其他检测器,YOLO系列仍然流行,部分原因是其有效使用CSPNet、ELAN[14]和改进的PANet[16]或FPN[15]进行特征整合,以及从YOLOv3[2]和FCOS[20]中借鉴的复杂预测头。YOLOv9[21]引入了可编程梯度信息和广义高效层聚合网络,以最小化深度网络传输中的信息损失。基于这些YOLO方法,本文提出了Hyper-YOLO,一种利用超图计算增强YOLO框架复杂关联学习能力的高级方法。Hyper-YOLO旨在改进层次特征的学习和整合,推动物体检测性能的边界。
超图学习方法
超图[17, 18]可以用于捕捉这些复杂的高阶关联。超图通过其超边连接多个节点,擅长建模复杂关系,如在社交网络分析[22, 23]、药物-靶标相互作用建模[24, 25]和脑网络分析[26, 27]等领域的应用所示。超图学习方法已成为捕捉数据中复杂和高阶关联的强大工具,传统基于图的技术可能无法充分表示这些关联。Gao等人[17]讨论的超边概念通过允许多个节点同时交互,促进了这些复杂关系的建模。超图神经网络(HGNN)[28]利用这些关系,通过谱方法直接从超图结构中学习。在此基础上,广义超图神经网络(HGNN+)[18]引入了空间方法,用于顶点之间的高阶消息传播,进一步扩展了超图学习的能力。尽管取得了这些进展,超图学习在计算机视觉任务中的应用仍相对未被探索,特别是在建模和学习高阶关联方面。本文将深入探讨如何利用超图计算进行物体检测任务,旨在通过整合超图建模的细微关系信息,提升分类和定位的准确性。
超图计算增强的语义收集与散射框架
与仅处理视觉特征的计算机视觉表示学习不同,超图计算方法[18, 28]同时处理特征和高阶结构。大多数超图计算方法依赖于固有的超图结构,这在大多数计算机视觉场景中无法获得。在这里,我们介绍了计算机视觉中超图计算的一般范式,包括超图构建和超图卷积。给定从神经网络提取的特征图X,采用超图构建函数f:X→G来估计语义空间中特征点之间潜在的高阶关联。然后,利用谱或空间超图卷积方法通过超图结构在特征点之间传播高阶消息。生成的高阶特征称为Xhyper。通过将高阶关系信息整合到Xhyper中,这种超图计算策略解决了原始特征图X中高阶关联的不足。最终的混合特征图,记为X',从X和Xhyper的融合中产生。这一合成过程最终产生了语义增强的视觉表示X',从语义和高阶结构的角度提供了更全面的视觉特征表示。
在这里,我们设计了一个计算机视觉中超图计算的一般框架,称为超图计算增强的语义收集与散射(HGC-SCS)框架。给定从CNN[29, 30, 31, 32, 33, 34]或其他骨干网络提取的特征图,我们的框架首先收集这些特征并融合它们以在语义空间中构建混合特征包Xmixed。在第二步中,我们估计潜在的高阶关联以在语义空间中构建超图结构。为了充分利用这些高阶结构信息,可以采用一些相关的超图计算方法[18, 28]。这样,可以生成高阶感知特征Xhyper,它结合了高阶结构和语义信息。在最后一步中,我们将高阶结构信息散布到每个输入特征图中。HGC-SCS框架可以表述如下:
其中{X_{1},X_{2},\cdots}表示从视觉骨干生成的基本特征图。“HyperComputation”表示第二步,包括超图构建和超图卷积,它在语义空间中捕捉潜在的高阶结构信息并生成高阶感知特征Xhyper。在最后一行中,ϕ(⋅)表示特征融合函数。{X_{1}',X_{2}',\cdots}表示增强的视觉特征图。在接下来的内容中,我们将介绍一个名为HyperC2Net的物体检测实例,作为我们HGC-SCS框架的实例。
方法
在本节中,我们首先介绍YOLO符号的预备知识以及提出的Hyper-YOLO的框架。接下来,我们详细介绍我们提出的两个核心模块,包括基本块(MANet)和颈部(HyperC2Net)。最后,我们分析Hyper-YOLO与其他YOLO方法之间的关系。
预备知识
YOLO系列方法[35, 36, 37, 38, 39, 1, 7, 8, 21, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39]通常由两个主要组件组成:骨干网络和颈部。骨干网络[40][13]负责提取基本视觉特征,而颈部[15][16][19]促进多尺度特征的融合,以进行最终的物体检测。本文提出了针对这两个组件的具体增强策略。为了便于描述,我们在本文中将颈部的三个尺度输出表示为{N_{3},N_{4},N_{5}},分别对应于小尺度、中尺度和大尺度的检测。在骨干网络的特征提取阶段,我们进一步将其分为五个阶段:{B_{1},B_{2},B_{3},B_{4},B_{5}},分别表示不同语义层次的特征。数字越大表示特征是由网络更深层的更高层次语义特征提取的。更多细节在附录A中提供。
Hyper-YOLO概述
我们的Hyper-YOLO框架保持了典型YOLO方法的总体架构,包括骨干网络和颈部,如图S1所示。给定图像,Hyper-YOLO的骨干网络利用提出的MANet作为其核心计算模块,从而增强了YOLOv8[8]中传统C2f模块的特征辨别能力。与传统YOLO架构不同,Hyper-YOLO摄取了五个主要特征集{B_{1},B_{2},B_{3},B_{4},B_{5}}。在一种新颖的步幅中,Hyper-YOLO的颈部(HyperC2Net)基于超图计算理论,整合了这些五重特征集之间的跨层和跨位置信息,最终生成了三个不同尺度的最终语义特征{N_{3},N_{4},N_{5}}。这些层次结构的语义特征随后用于最终的物体检测任务。
图2. 提出的混合聚合网络(MANet)的示意图。
图3. 超图构建的示意图。
混合聚合网络
对于我们的Hyper-YOLO的骨干网络,为了增强基础网络的特征提取能力,我们设计了混合聚合网络(MANet),如图2所示。该架构协同融合了三种典型的卷积变体:用于通道特征重新校准的1×1旁路卷积、用于高效空间特征处理的深度可分离卷积(DSConv)和用于增强特征层次整合的C2f模块。这种融合在训练阶段产生了更多样化和丰富的梯度流,显著增强了每个五个关键阶段中基础特征所包含的语义深度。我们的MANet可以表述如下:
基于超图的跨层和跨位置表示网络
对于我们的Hyper-YOLO的颈部,在本小节中,为了全面融合来自骨干网络的跨层和跨位置信息,我们进一步提出了基于超图的跨层和跨位置表示网络(HyperC2Net),如图4所示。HyperC2Net是提出的HGC-SCS框架的实现,能够在语义空间中捕捉潜在的高阶关联。
图4. 提出的基于超图的跨层和跨位置表示网络(HyperC2Net)的示意图。
超图构建
如图S1所示,我们的骨干网络分为五个离散阶段。这些阶段的特征图表示为{B_{1},B_{2},B_{3},B_{4},B_{5}}。为了利用超图计算阐明基础特征之间复杂的高阶关系,我们首先执行五重基础特征的通道连接,从而合成跨层视觉特征。超图G={V,E}通常由其顶点集V和超边集E定义。在我们的方法中,我们将基于网格的视觉特征分解为构成超图顶点集V的特征点。为了在语义空间中建模邻域关系,使用距离阈值从每个特征点构建ε-球,该ε-球将作为超边,如图3所示。ε-球是一个超边,包含从中心特征点在一定距离阈值内的所有特征点。整体超边集的构建可以定义为E={ball(v,ε) | v∈V},其中ball(v,ε)={u | ||xu-xv||d<ε,u∈V}表示指定顶点v的邻域顶点集。||x-y||d是距离函数。在计算中,超图G通常由其关联矩阵H表示。
超图卷积
为了在超图结构上进行高阶消息传递,我们使用典型的空间域超图卷积[18],并添加额外的残差连接,对顶点特征进行高阶学习,如下:
其中Dv和De分别表示顶点和超边的对角度矩阵。
HGC-SCS框架的实例
通过结合先前定义的超图构建和卷积策略,我们介绍了一个简化的HGC-SCS框架实例,称为基于超图的跨层和跨位置表示网络(HyperC2Net),其总体定义如下:
其中||表示矩阵连接操作。ϕ是融合函数,如图4所示(语义散射模块和自下而上模块)。在我们的HyperC2Net中,Xmixed本质上包含跨层信息,因为它是来自多个层次的骨干特征的融合。此外,通过将网格特征分解为语义空间中的一组特征点,并基于距离构建超边,我们的方法允许在点集内不同位置的顶点之间进行高阶消息传递。这种能力促进了跨位置信息的捕捉,丰富了模型对语义空间的理解。
比较与分析
YOLO系列的进展主要集中在骨干网络和颈部组件的改进上,特别是骨干网络作为每个YOLO迭代中的关键进化元素。例如,开创性的YOLO[1]框架引入了DarkNet骨干网络,此后经历了多次改进,如YOLOv7[7]中引入的ELAN(高效层聚合网络)模块和YOLOv8[8]中推出的C2f(跨阶段部分连接与反馈)模块。这些创新关键地促进了骨干架构的视觉特征提取能力。
相比之下,我们的Hyper-YOLO模型将创新轴转向颈部组件的设计。在颈部架构方面,领先版本如YOLOv6[5]、YOLOv7[7]和YOLOv8[8]持续采用了PANet[16](路径聚合网络)结构。同时,Gold-YOLO[10]采用了创新的收集-分发颈部范式。接下来,我们将比较HyperYOLO的HyperC2Net与这两种经典颈部架构。
PANet架构尽管通过自上而下和自下而上的路径有效融合了多尺度特征,但其信息融合主要局限于直接相邻层之间。这种邻接边界融合模式固有地限制了网络内信息整合的广度。HyperC2Net则通过直接融合来自骨干的五重层次特征,超越了这一限制。这种方法产生了更强大和多样化的信息流,缩小了不同深度特征之间的连接差距。值得注意的是,Gold-YOLO引入的收集-分发颈部机制虽然能够跨多个层次吸收信息,但并未内在地考虑特征图内的跨位置交互。HyperC2Net的独创性在于其利用超图计算捕捉特征图中潜在的复杂高阶关联。语义域中的超图卷积促进了非网格约束的信息流,实现了跨层和跨位置的高阶信息传播。这种机制打破了传统网格结构的限制,实现了更细致和整合的特征表示。
HyperC2Net生成的特征表示反映了原始数据骨干提供的语义特征和潜在高阶结构特征的综合考虑。这种丰富的特征表示在实现物体检测任务的卓越性能方面具有重要作用。HyperC2Net利用这些复杂的高阶关系的能力显著优于传统的颈部架构,如PANet,甚至最近的创新如收集-分发颈部,突显了高阶特征处理在推进计算机视觉最先进水平中的价值。
实验
实验设置
数据集
微软COCO数据集[41],作为物体检测的基准,用于评估提出的Hyper-YOLO模型的有效性。特别是,Train2017子集用于训练目的,而Val2017子集作为验证集。Hyper-YOLO在Val2017子集上的性能评估结果详见表I。
比较方法
我们选择了先进的YOLO系列方法,包括YOLOv5[4]、YOLOv6-3.0[5]、YOLOv7[7]、YOLOv8[8]、Gold-YOLO[10]和YOLOv9[21]进行比较。在我们的实验中采用了它们报告的默认参数配置。
我们的Hyper-YOLO方法
我们的Hyper-YOLO基于YOLOv8的四个尺度(-N, -S, -M, -L)开发。因此,我们修改了Hyper-YOLO架构每个阶段的超参数(卷积层数量、特征维度),如表S2所示,得到了Hyper-YOLO-N、Hyper-YOLO-S、Hyper-YOLO-M和Hyper-YOLO-L。考虑到我们的Hyper-YOLO在颈部引入了高阶学习,增加了参数数量,我们在Hyper-YOLO-N的基础上进一步减少了参数,形成了Hyper-YOLO-T。具体来说,在Hyper-YOLO-T的HyperC2Net中,自下而上阶段的最后一个C2f被1×1卷积替换。此外,我们注意到最新的YOLOv9采用了新的可编程梯度信息传输,并在推理过程中修剪路径以减少参数同时保持准确性。基于YOLOv9,我们开发了Hyper-YOLOv1.1。具体来说,我们将YOLOv9的颈部替换为Hyper-YOLO的HyperC2Net,从而赋予YOLOv9高阶学习的能力。
其他细节
为了确保公平比较,我们排除了所有考虑方法的预训练和自蒸馏策略的使用,如[5]和[10]中所述。此外,考虑到输入图像大小对评估的潜在影响,我们将所有实验的标准化输入分辨率设置为640×640像素,这是该领域的常见选择。评估基于标准的COCO平均精度(AP)指标。其他实现细节在附录A和附录C中提供。
结果与讨论
COCO Val2017验证集上的物体检测结果如表I所示,主要观察到四点。
表I. 最先进YOLO方法的比较。术语“#PARA.”指的是模型中的“参数数量”。每秒帧数(FPS)和延迟在FP16精度下使用Tesla T4 GPU进行基准测试,所有模型一致使用TensorRT 8.6.1。在我们的实际速度评估中,一个显著的观察是TensorRT并未完全优化距离计算(torch.cdist()),这是超图构建中的关键步骤。为了与其他YOLO变体保持公平比较,我们提供了仅针对骨干架构改进的额外结果,用符号†表示。
首先,提出的Hyper-YOLO方法在所有四个尺度上均优于其他模型。例如,在APval指标上,Hyper-YOLO在-N尺度上达到了41.8%的性能,在-S尺度上达到了48.0%,在-M尺度上达到了52.0%,在-L尺度上达到了53.8%。与Gold-YOLO相比,Hyper-YOLO分别提高了2.2、2.6、2.2和2.0。与YOLOv8相比,改进分别为4.5、3.1、1.8和0.9。与YOLOv9相比,Hyper-YOLO分别提高了3.5、1.2、0.6和0.8。这些结果验证了Hyper-YOLO方法的有效性。
其次,值得注意的是,我们的方法不仅在性能上优于Gold-YOLO,而且在参数数量上显著减少。具体来说,-N尺度减少了28%,-S尺度减少了31%,-M尺度减少了19%,-L尺度减少了25%。主要原因是我们的HGC-SCS框架进一步在语义空间中引入了高阶学习,与Gold-YOLO的收集-分发机制相比。这使得我们的方法能够更高效地利用骨干提取的多样化信息,包括跨层和跨位置信息,以更少的参数实现。
第三,考虑到Hyper-YOLO与YOLOv8共享类似的底层架构,我们发现提出的Hyper-YOLO-T与YOLOv8-N相比,在物体检测性能(37.3→38.5的APval)上有所提高,同时参数数量更少(3.2M→3.1M)。这表明提出的HyperC2Net通过高阶学习可以实现更好的特征表示学习,从而提高检测性能。同样,我们将Hyper-YOLOv1.1与YOLOv9进行比较,两者使用相同的骨干架构,唯一的区别是Hyper-YOLOv1.1采用基于超图的HyperC2Net作为颈部。结果显示,我们的Hyper-YOLOv1.1在性能上显著提升:Hyper-YOLOv1.1-T优于YOLOv9-T 2.0 APval,Hyper-YOLOv1.1-S优于YOLOv9-S 1.2 APval。这种在相同架构和相同尺度下的公平比较验证了提出的高阶学习方法在物体检测任务中的有效性。
最后,我们观察到,与YOLOv8相比,我们的Hyper-YOLO带来的改进在模型尺度减小时(从-L到-N)变得更加显著(从0.9到4.5)。这是因为较小的模型尺度削弱了特征提取能力和从视觉数据中获取有效信息的能力。此时,高阶学习变得必要,以捕捉特征图语义空间中的潜在高阶关联,丰富最终用于检测头的特征。此外,基于超图在语义空间中的高阶消息传播允许不同位置和层次之间的直接信息流,增强了基础网络在有限参数下的特征提取能力。
骨干网络的消融研究
在本小节和下一小节中,考虑到模型的尺度,我们选择Hyper-YOLO-S进行骨干网络和颈部的消融研究。
骨干网络的基本块
我们进行了关于提出的MANet的消融实验,以验证基本块中提出的混合聚合机制的有效性,结果如表II所示。为了确保公平比较,我们使用了YOLOv8[8]中使用的相同PANet[16]作为颈部,因此两种方法之间的唯一区别在于基本块。实验结果清楚地表明,在相同颈部下,提出的MANet在所有指标上均优于C2f模块。这种优越的性能归因于混合聚合机制,该机制集成了三种经典结构,导致信息流更丰富,从而表现出更好的性能。
表II. 骨干网络中不同基本块的消融研究。
不同阶段的内核大小
我们进一步进行了卷积内核大小的消融实验,这是决定网络感受野和捕捉数据空间层次能力的关键因素。在我们的实验中,ki表示在第i阶段使用的MANet的内核大小。由于我们的MANet从第二阶段开始使用混合聚合,因此我们在实验中的k配置表示为[k2,k3,k4,k5]。实验结果如表III所示。实验结果表明,将卷积内核的大小从3增加到5确实可以提高模型的准确性。然而,对于小尺度和中尺度物体检测,与不同内核大小的混合相比,准确性不一定提高,而且还会导致更多的参数。因此,考虑到性能和参数数量之间的平衡,我们的Hyper-YOLO最终选择了[3,5,5,3]配置作为MANet中卷积内核大小的最佳设置。
颈部的消融研究
HGC-SCS框架中的高阶与低阶学习
表III. 不同增强策略的消融研究。
HGC-SCS框架的核心在于语义空间中的超图计算,允许特征点集之间的高阶信息传播。我们进行了消融研究,通过将超图简化为图进行低阶学习来评估其有效性,结果如表IV所示。在这种情况下,图是通过将中心节点与其ε-球内的邻居连接而构建的。使用的图卷积操作[42]是经典的:,其中Dv是图邻接矩阵A的对角度矩阵。此外,我们还包含了一个完全没有关联学习的配置:“None”。实验结果如表IV所示,表明高阶学习在其他两种方法中表现出优越的性能。理论上,低阶学习可以被视为高阶学习的一个子集[43],但缺乏建模复杂关联的能力。另一方面,高阶学习具有更强大的关联建模能力,对应于更高的性能上限。因此,它往往更容易实现更好的性能。
表IV. 输入层次数量的消融研究。
语义收集阶段
HGC-SCS框架的第一阶段是语义收集,它决定了输入到语义空间进行超图计算的信息总量。我们对该阶段进行了消融研究,结果如表V所示,使用了三种不同的配置,分别选择3、4或5个层次的特征图进行输入。实验结果表明,更多的特征图可以带来更丰富的语义空间信息。这种增强的信息丰富性使超图能够充分利用其在建模复杂关联中的能力。因此,输入配置为5个特征图的配置实现了最佳性能。这一结果表明,当整合更多层次的特征图时,模型可以从输入数据中获得更全面的表示。包含更多特征图可能会引入更广泛的语义意义和细节,使超图能够建立反映更完整场景理解的高阶连接。因此,包含5个特征图的配置是首选,以最大化基于超图的复杂关联建模的潜力。
超图计算阶段的超图构建
进一步的消融实验研究了超图构建中使用的距离阈值的影响,结果如表VI所示。与没有引入超图计算的配置“None”相比,引入超图计算导致整体性能显著提高。还观察到,目标检测网络的性能在7到9的阈值范围内相对稳定,只有微小变化。然而,在阈值为6和10时,性能有所下降。这种下降可以归因于连接节点的数量直接影响语义空间中特征的平滑度。较高的阈值可能导致更连接的超图,节点更有可能共享信息,可能导致特征过度平滑。相反,较低的阈值可能导致连接较少的超图,无法充分利用特征之间的高阶关系。因此,我们的HyperYOLO使用距离阈值8进行构建。精确值将根据经验结果确定,平衡需要丰富连接的超图与过度平滑或连接不足的风险。
表V. 超图构建阈值的消融研究。
更多消融研究
在本小节中,我们对Hyper-YOLO在四个不同模型尺度上的骨干网络和颈部增强进行了彻底的消融研究,详细结果如表VII所示。YOLOv8的基线性能位于表的顶部。表的中间部分介绍了仅包含骨干网络增强的HyperYOLO模型。在底部,我们展示了完全增强的HyperYOLO模型,受益于骨干网络和颈部的增强。基于表VII中的实验结果,我们有三个观察结果。
首先,采用单独和组合的增强显著提升了-N、-S和-M模型的性能,验证了我们提出的修改的有效性。其次,每种增强的影响似乎是尺度依赖的。随着我们从-N到-S、-M和-L模型,由于骨干网络改进带来的性能增量逐渐减少,从2.6到1.5、0.8,最后是0.1。相比之下,颈部增强在这些尺度上一致贡献了更显著的改进,分别为1.9、1.6、1.0和0.8。这表明,虽然骨干网络中的扩展感受野和宽度缩放在较小的模型中更为显著,但先进的HyperC2Net颈部通过丰富语义内容并全面提升物体检测性能,提供了更均匀的增强。第三,当关注小物体检测(AP*)时,具有骨干网络和颈部增强的HyperYOLO-L模型实现了显著的1.6增加,而仅骨干网络增强则导致0.6的改进。这突显了超图建模,特别是颈部增强,在捕捉小物体之间复杂关系并显著改善这些具有挑战性的场景中的检测方面的潜力。
实例分割任务的更多评估
我们将Hyper-YOLO的应用扩展到COCO数据集上的实例分割任务,确保与前身YOLOv8进行直接比较,通过采用一致的网络修改方法:将检测头替换为分割头。实验结果如表VIII所示。
实证结果清楚地表明,Hyper-YOLO实现了显著的性能提升。对于APbox,Hyper-YOLO在-N变体上显示了4.7 AP的显著增加,-S变体上为3.3 AP,-M变体上为2.2 AP,-L变体上为1.4 AP。同样,对于APmask,Hyper-YOLO展示了显著的改进,-N为3.3 AP,-S为2.3 AP,-M为1.3 AP,-L为0.7 AP。这些结果突显了集成到Hyper-YOLO中的进展的有效性。
物体检测中高阶学习的可视化
在我们的论文中,我们提供了数学论证,解释了基于超图的颈部如何超越传统颈部设计的局限性,传统颈部设计通常依赖于特征图内的网格邻域结构进行消息传播。这种设计实现了特征语义空间之间的高阶消息传播。为了进一步证实我们基于超图的颈部的有效性,我们在修订后的手稿中包含了可视化内容,如图5所示。这些可视化比较了应用我们的HyperConv层之前和之后的特征图。从这些图像中可以明显看出,对语义相似背景(如天空和地面)的关注一致减少,而在各种场景中对前景物体的关注保持不变。这表明HyperConv通过超图计算帮助颈部更好地识别图像中语义相似的物体,从而支持检测头做出更一致的决策。
结论
表VI. 不同尺度模型的消融研究。
在本文中,我们介绍了Hyper-YOLO,一种开创性的物体检测模型,将超图计算与YOLO架构整合,以利用视觉数据中的高阶关联潜力。通过解决传统YOLO模型,特别是颈部设计在有效整合不同层次特征和利用高阶关系方面的固有限制,我们显著推进了物体检测的最先进水平。我们的贡献为未来在物体检测框架中的研究和开发设定了新的基准,并为在我们的HGC-CSC框架内进一步探索超图计算在视觉架构中的整合铺平了道路。
表VII. 实例分割任务的实验结果。
图5. 高阶学习前后特征图的可视化。
附录A
Hyper-YOLO的实现细节
在本节中,我们详细介绍了我们提出的模型:Hyper-YOLO-N、Hyper-YOLO-S、Hyper-YOLO-M和Hyper-YOLO-L的实现。这些模型基于PyTorch1开发。按照YOLOv8[8]的配置,我们的模型共享类似的架构和损失函数,显著的区别是集成了MANet和HyperC2Net。为了进行精确的物体检测,集成了一个高效的解耦头。Hyper-YOLO-S的具体配置如图S1所示。
骨干网络
HyperYOLO的骨干网络详见表S1,从其前身更新,C2f模块被MANet模块替换,保持与YOLOv8[8]相同的层数,结构为[3,6,6,3]。每个阶段的通道数与YOLOv8保持一致,唯一的改变是模块的替换。MANet采用深度可分离卷积,通道数增加,其中2c输入扩展到4c输出(2c相当于cout)。
除了这些调整外,四个阶段的超参数k和n分别设置为[3,5,5,3]和[3,6,6,6]×深度。深度乘数在不同尺度的模型中有所不同,Hyper-YOLO-N、Hyper-YOLO-S、Hyper-YOLO-M和Hyper-YOLO-L分别设置为1/3、1/3、2/3和1。这意味着模型在每个阶段的实际n计数为[3,6,6,6]乘以相应的深度因子。这些规范确保每个尺度的HyperYOLO模型都配备了为其大小和复杂性精细调整的骨干网络,能够在多个尺度上实现高效的特征提取。
颈部
与YOLOv8的颈部设计相比,HyperYOLO模型引入了基于超图的跨层和跨位置表示网络(HyperC2Net)作为其颈部组件,详见图4。这种创新结构是提出的HGC-SCS框架的具体体现,专门设计用于封装语义空间中存在的高阶关联。
HyperC2Net旨在全面融合来自骨干网络的跨层和跨位置信息。通过利用超图架构,它有效地捕捉不同层次和位置的特征点之间的复杂相互依赖关系。这使得模型能够构建更复杂和丰富的输入数据表示,这对于识别和描绘图像中细微的细节特别有用。在Hyper-YOLO模型的不同尺度背景下,颈部在保持高阶关联表示的一致性方面起着关键作用。由于特征点的空间分布在Hyper-YOLO-N和Hyper-YOLO-L等模型之间可能显著不同,后者通常具有更分散的分布,HyperC2Net相应地调整其方法,为每个模型尺度采用不同的距离阈值,如表S2所示,以确保网络捕捉到适当水平的高阶关联而不陷入过度平滑。HyperC2Net根据模型尺度和特征点分布动态调整其阈值值的能力证明了其复杂的设计。它在深度上下文理解和保持特征空间的锐度和粒度之间取得了精细的平衡,从而增强了模型在检测和分类各种复杂视觉环境中的物体时的整体性能。
附录B
结果的可视化
在本节中,我们进一步提供了Hyper-YOLO在两个任务上的可视化结果:物体检测和实例分割,分别如图S2和图S3所示。
物体检测
图S2的结果表明,我们的Hyper-YOLO模型在物体识别能力上表现出色,如图(b)和(c)所示。此外,由于在其架构中使用了基于超图的颈部,Hyper-YOLO具有一定的类别推理能力。这在图(a)中最为明显,Hyper-YOLO能够以高置信度推断,如果检测到一只鸟,其他两个实体也是鸟。此外,如图(e)所示,人类经常用飞盘与狗玩耍。尽管图像中只看到一只手套,我们的Hyper-YOLO仍然能够识别它属于人类。
实例分割
图S3的结果表明,与YOLOv8相比,Hyper-YOLO在分类和边界描绘方面实现了显著的改进。尽管图(a)中的地面实况标注不完全准确,我们的Hyper-YOLO仍然能够提供精确的边界分割。图(c)、(d)和(e)描绘了更复杂的场景,但我们的Hyper-YOLO继续提供准确的实例分割结果,确保没有遗漏任何饼干。
附录C
Hyper-YOLO的训练细节
Hyper-YOLO的训练协议经过精心设计,以在不同实验中保持一致性和鲁棒性。每台GPU分配了统一的批量大小20,以保持一致的计算环境,使用总共8个NVIDIA GeForce RTX 4090 GPU。为了评估学习效率和泛化能力,所有Hyper-YOLO的变体,包括-N、-S、-M和-L,都从头开始训练。模型经过500个周期的训练,不依赖于ImageNet等大规模数据集的预训练,从而避免了潜在的偏见。训练超参数经过微调,以适应不同模型大小的特定需求。表S3总结了每个模型尺度的关键超参数。
这些核心参数,如初始学习率和权重衰减,在所有尺度上统一设置,以标准化学习过程。然而,超图阈值根据模型尺度和批量大小进行调整。该阈值配置考虑了每GPU批量大小为20,这意味着如果批量大小发生变化,阈值需要相应调整。通常,单GPU上的较大批量大小需要较低的阈值,而较大的模型尺度则需要较高的阈值。
大多数超参数在不同模型尺度上保持一致;然而,学习率、尺度增强、混合增强、复制与粘贴增强和超图阈值等参数针对每个模型尺度进行了调整。数据增强超参数主要基于YOLOv5的配置,对Hyper-YOLO进行了一些调整。例如,N和S模型采用了较低水平的数据增强,N模型的最终学习率(lrf=0.02)和S模型的尺度增强(scale=0.6)进行了特定调整。M和L模型则分别采用了中等和高水平的数据增强,两者的关闭马赛克周期(20)设置相同。
需要强调的是,超图阈值是在每GPU批量大小为20的前提下设置的。更改批量大小应伴随相应的阈值调整,趋势是单GPU上的较大批量大小应导致较小的相对阈值。同样,较大的模型尺度需要较高的阈值。大多数超参数在不同模型尺度上保持一致,除了少数如lrf、尺度增强、混合增强、复制与粘贴增强和超图阈值,这些参数针对特定模型尺度进行了调整。数据增强参数主要基于YOLOv5的设置,对Hyper-YOLO进行了一些调整。
附录D
速度测试的细节
我们Hyper-YOLO模型的速度基准测试采用了两组方法。第一组包括需要重新参数化的模型,如YOLOv6-3.0和Gold-YOLO。第二组包括YOLOv5、YOLOv8和HyperYOLO。值得注意的是,在转换为ONNX格式时,HyperYOLO模型在'torch.cdist'函数上遇到问题,导致大张量尺寸在批量大小为32时出错。为了解决这个问题并确保准确的速度测量,我们在测试期间用自定义特征距离函数替换了'torch.cdist'函数。此外,我们还测试了仅增强骨干网络的变体的速度。
基准测试过程包括将模型转换为ONNX格式,然后转换为TensorRT引擎。测试在批量大小为1和32的情况下进行两次,以评估不同操作环境下的性能。我们的测试环境控制为Python 3.8.16、Pytorch 2.0.1、CUDA 11.7、cuDNN 8.0.5、TensorRT 8.6.1和ONNX 1.15.0。所有测试均采用固定输入大小640×640像素进行。