顶刊TPAMI 2025!清华提出Hyper-YOLO,目标检测+超图计算实现新SOTA

aa2150cb25fd689e02814836433216b5.gif

©作者 | iMoon-Lab

单位 | 清华大学

来源 | 新智元

YOLO(You Only Look Once)系列是目标检测领域中的主流方法,以其高效性和实时性而著称。然而,现有的 YOLO 模型在处理跨层特征融合和复杂的高阶特征关系时存在局限,无法充分捕捉跨位置和跨尺度的复杂特征关联。

为了解决这一难点,清华大学提出了 Hyper-YOLO:一种基于超图计算的目标检测方法。Hyper-YOLO 首次将超图计算集成到目标检测网络,对特征图中的复杂高阶关联进行建模,实现了高阶信息的跨层次和跨位置传播。

0783e46439092af0796745d5096e525d.png

论文标题:

Hyper-YOLO: When Visual Object Detection Meets Hypergraph Computation

论文地址:

https://arxiv.org/abs/2408.04804

项目地址:

https://github.com/iMoonLab/Hyper-YOLOv1.1

零代码平台:

http://hyperyolo.gaoyue.org:28501/#/predict

9424a60523ff627ff7e20dd4a8f81095.png

fdf050907d8ff0b1e83bf5e99d4801da.gif

使用超图计算结合 YOLO,性能在各种规模模型中都达到顶尖,在 COCO 数据集上的表现明显优于其他模型,尤其是对中小目标提升更加显著。其中,相比于最新的 YOLOv9-T、YOLO11-S,同规模的 Hyper-YOLO 分别实现了 2% 和 1% 的平均精度提升。

efa5d21a4fa257df621f824224581639.png

目标检测的困境

近年来,随着深度学习的快速发展,YOLO(You Only Look Once)系列模型凭借其高效的单阶段检测架构,在目标检测领域中脱颖而出。YOLO 模型通过将目标检测简化为回归问题,在保持高精度的同时实现了实时检测能力,受到了广泛关注和应用。

e0431dc5b241cb5330378ba4ad73a71a.png

然而,随着应用场景的复杂化,现有的YOLO模型在处理跨层次特征融合和高阶特征关系时暴露出了一定的局限性。

下图展示了几个典型的案例(YOLOv8 为例)。在打网球的场景中,现有模型将网球拍误判为了棒球棒;在冲浪的场景中,现有模型将冲浪板误判为了风筝。这种错误正是由于现有的模型难以捕捉视觉对象之间的复杂关系。

e11b9619edae947627f3ea329ba9fd13.png

因而,不同目标间的高阶语义关联推理限制了目标检测的性能。

868961c6c64acbad9966171ac2b45695.png

高阶关联的建模方法

为了解决这些问题,学术界一直在探索更加先进的模型设计与优化方法。其中,超图计算作为一种能够捕捉多方关系的数学工具,逐渐被应用于包括社交网络、脑网络等复杂数据结构分析中。

eb9e8f641c0f5a24620a75d8939c0e5a.png

超图覆盖了多种关联,是复杂关联计算的有效方法。在 Hyper-YOLO 中,作者首次将超图计算引入目标检测领域,以实现视觉高阶语义关联的建模与学习。

模型效果

该工作在 COCO 数据集上进行了丰富的实验。Hyper-YOLOv1.1 提供了 3 种规模的版本(Tiny, Small , Medium),在对比实验中,均明显优于最新的 YOLO 模型。

其中,Tiny 版本的平均精度(mAP)指标相比于 YOLOv8、YOLOv9、YOLO11 的同规模版本分别提升 3.0%、2.0%、0.8%;Small 版本的 mAP 指标相比于 YOLOv8、YOLOv9、YOLO11 的同规模版本分别提升 3.1%、1.2%、1.0%。此外,对于骨干网络、Kernel 大小、特征增强策略、超图构建策略的消融实验证明了所提出的方法的先进性。

f97818b96e6007268fc5a912e9e9e1c2.png

以下两图为 YOLOv8、Hyper-YOLO 在目标检测和实例分割任务下的可视化结果。

3c867a1bc3d8ed546b94d6bba406bc4b.png

333230d65b6dacf2f6ee152d1578e446.png

下图为使用高阶关联学习对特征图增强前后的可视化图(通过 HyperC2Net 前后的特征图)。

516db140ec4c48f392da1a0c1d6811cb.png

上述实验结果证明,Hyper-YOLO 具有目前最先进的检测性能,尤其对场景中不同视觉对象的高阶关系具有更准确的理解能力。

Hyper-YOLO零代码平台

智能媒体与认知实验室还推出了一款基于 Hyper-YOLO 的零代码训练平台。在该平台上,无需配置环境、修改配置文件等繁琐操作,既可以一键上传图像利用训练好的 Hyper-YOLO 模型进行推理,也可以上传数据集自定义训练、直观展示训练过程 (推荐使用 PC 端 chrome/Edge 浏览器)。

fe77f3ac4e63ba4a6366880b2e8c3e7a.png

项目支持自定义训练。

a87770410f8fe1e5482b88995f970dbb.gif

在训练完成后,可以对验证数据进行推理和评估,并可视化检测结果:

778c426bc74a44b75412b2a30ac00760.gif

b9ae7b45c7207fb0095f17a008437e39.png

方法概述

超图计算

超图是图的推广形式,是一种高效的特征表示学习方法。在超图中,一条超边可以连接多个顶点,从而表示对象之间的高阶关联。超图神经网络作为超图计算的核心方法,通常包含以下几个步骤:

1. 从原始数据构建超边

2. 从顶点到超边的消息聚合(超边卷积)

3. 从超边到顶点的消息分发(节点卷积)

超图神经网络由于其灵活性和丰富的表达能力,广泛应用于社交网络分析、生物信息学、推荐系统等领域,能够更有效地建模和分析复杂的多层次数据关联。

Hyper-YOLO整体架构

Hyper-YOLO 继承了典型的 YOLO 架构,骨干网络通过引入混合聚合网络(MANet)来增强特征提取能力,从五个特征层中获取信息。

6a69bfd840fc1f9837fc2956f180d153.png

颈部网络(Neck)采用基于超图的跨层次和跨位置表示网络(HyperC2Net),通过超图计算集成多尺度特征,实现高阶信息的跨层次和跨位置传播,从而生成适用于目标检测的语义特征,显著提升模型的检测性能。

基于超图的跨层次和跨位置表示网络

在传统 YOLO 模型中,颈部为连接骨干网络和预测头之间的部分,通常采用类似 PANet 的结构,承担多尺度特征提取与融合的功能。虽然这类结构能够进行一定的多尺度特征融合,但直接的信息交互局限在相邻层之间。

而基于超图的跨层次跨位置表示网络(Hypergraph-Based Cross-Level and Cross-Position Representation Network, HyperC2Net)则突破了这一瓶颈,主要过程如下:

1. 超图构建:HyperC2Net 将来自不同层次的特征图进行拼接,形成跨层次的视觉特征集合。然后通过计算特征点之间的距离,构建一个超图,其中每个超边连接多个顶点,代表多个特征点之间的高阶关系。超图能够表达跨层次和跨位置的复杂关系,而非简单的相邻层信息融合。

60d6a81963caa7cc85298c6ef618a2f1.png

2. 超图卷积:在构建超图后,HyperC2Net 利用超图卷积在特征图上进行消息传播。通过这种方式,不同位置和层次的特征点可以相互传递信息,建模特征点之间的高阶关联,增强了模型对于复杂场景中目标的识别能力。特别是在跨位置特征交互方面,相比于传统的卷积操作,超图卷积能够捕捉到更广泛和复杂的特征关联。

bd824003816f0909b12be7b09612175b.png

d4633b4d239006d309d69ab3d203a382.png

总结

Hyper-YOLO 通过引入超图计算方法,突破了传统 YOLO 模型在多尺度特征融合上的局限。超图的高阶关联建模能力使得 HyperC2Net 能够在跨层次和跨位置的信息传播中表现出色,不仅在特征点之间实现高效的信息聚合和分发,还通过跨层次的消息传递显著提升了目标检测性能,尤其在处理复杂场景和多目标检测任务中表现优异。

outside_default.png

参考文献

outside_default.png

[1] Feng Y, Huang J, Du S, et al. Hyper-YOLO: When visual object detection meets hypergraph computation[J]. arXiv preprint arXiv:2408.04804, 2024. 

[2] Feng Y, You H, Zhang Z, et al. Hypergraph neural networks[C]//Proceedings of the AAAI conference on artificial intelligence. 2019, 33(01): 3558-3565. 

[3] Gao Y, Feng Y, Ji S, et al. HGNN+: General hypergraph neural networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 45(3): 3181-3199.

更多阅读

0a58ba587fe1345dc3b78c955b23dda5.png

1e0e4bc53922d0b53a245e20efd83399.png

ef4319fdc8093eb3b7da6d89981661a3.png

62efe67a11473e86cb13809e099e2d63.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

ff7c7be283bbf1202a83568d83c5def6.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

e52215e81d1177eae6c2b9621f257bf6.jpeg

### Hyper-YOLO 技术详情 Hyper-YOLO 是基于YOLOv8的四个不同版本(-N, -S, -M, -L)进行开发的一种改进模型。为了适应不同的应用场景和硬件条件,开发者针对每个版本调整了特定的超参数设置,包括但不限于卷积层数量以及特征维度等重要属性[^1]。 #### 超参数优化 对于每一个变体——即Hyper-YOLO-N、Hyper-YOLO-S、Hyper-YOLO-M 和 Hyper-YOLO-L,在设计过程中都进行了细致入微地调优工作: - **卷积层配置**:根据不同规模的需求来决定每种架构下的具体卷积层数目; - **特征提取能力增强**:通过增加或减少某些层次上的通道数(feature dimension),使得网络能够在保持高效的同时获得更好的目标检测性能; 这种定制化的设计思路不仅提高了算法的整体表现力,同时也兼顾到了实际部署时可能面临的资源限制问题。 ```python class HyperYoloConfig: def __init__(self, version): self.version = version if self.version == 'N': self.conv_layers = 20 self.feature_dim = 64 elif self.version == 'S': self.conv_layers = 30 self.feature_dim = 96 elif self.version == 'M': self.conv_layers = 40 self.feature_dim = 128 elif self.version == 'L': self.conv_layers = 50 self.feature_dim = 256 ``` ### 应用场景 由于其灵活性高且易于适配多种环境的特点,Hyper-YOLO 可广泛应用于各类计算机视觉任务当中,特别是在实时性强的目标识别领域内展现出色的能力。无论是小型嵌入式设备还是高性能服务器集群上运行的大规模监控系统,都能找到适合自己的最佳实践方案。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值