SoftHGNN:用于通用视觉识别的软超图神经网络

LemonTree 

已于 2025-05-24 16:32:08 修改

阅读量952

点赞数 18

分类专栏：超图计算文章标签：神经网络人工智能深度学习计算机视觉目标检测

于 2025-05-24 16:30:39 首次发布

本文链接：https://blog.csdn.net/Lemon__Tree__/article/details/148190997

版权

超图计算专栏收录该内容

2 篇文章

订阅专栏

🔗Github地址：https://github.com/Mengqi-Lei/SoftHGNN

🔗arXiv论文：https://arxiv.org/abs/2505.15325

Self-Attention, HGNN, SoftHGNN 计算范式的差异

1. 摘要

视觉识别依赖于理解图像标记（image tokens）的语义内容以及它们之间复杂的交互关系。主流的自注意力（self-attention）方法虽然能够有效建模全局的成对关系，但难以捕捉真实世界场景中固有的高阶关联，同时也常常存在冗余计算的问题。超图（hypergraph）通过建模高阶交互关系扩展了传统图结构，为解决这些局限性提供了一种有前景的框架。然而，现有的超图神经网络（Hypergraph Neural Networks, HGNN）通常依赖于静态或人工构造的超边，这会导致超边数量过多且冗余，同时采用刚性的二元节点归属方式，忽略了视觉语义的连续性。
为了突破这些瓶颈，提出了软超图神经网络（Soft Hypergraph Neural Networks, SoftHGNN），扩展了超图计算理论，使其在视觉识别任务中真正高效且通用。SoftHGNN框架引入了软超边（soft hyperedges）的概念，其中，每个节点与超边的关联不再是硬性的二元分配，而是通过连续的归属权重来表达。这种动态且可微的关联机制是通过可学习的语义原型向量实现的。通过计算token特征与这些原型之间的相似度，模型能够生成稀疏但语义丰富的超边。这种设计允许节点以灵活的权重参与多个超边，更好地捕捉视觉语义的不确定性和渐变性。为了提高超边数量扩展时的计算效率，本文引入了一种仅激活 top-k 超边的稀疏超边选择机制，并结合负载均衡正则项（load-balancing regularizer），确保超边的合理利用和均衡分配。
在包含了3个典型视觉识别任务的5个公开数据集上的实验结果表明，SoftHGNN 能够高效建模高阶视觉关系，显著提升模型的性能表现。

2. 引言

近年来，视觉识别领域取得了显著进展，这主要得益于以深度神经网络为基础的模型，尤其是卷积神经网络（CNN）和 Transformer 模型。CNN 擅长捕捉局部空间结构信息，而基于自注意力机制的 Transformer 模型则能有效地建模图像 Token 之间的全局关系。当前主流的范式，如 Vision Transformer 及其变体，通常将图像划分为一系列视觉 Token，并重点关注这些 Token 之间的两两关系。

尽管取得了令人瞩目的成果，但基于自注意力机制的视觉模型仍面临两大挑战。其一，自注意力天然构建了一个完全连接的语义图，主要关注 Token 之间的两两关系，难以有效地表达真实视觉场景中普遍存在的高阶关联。例如，“一个人持拍击球”的简单场景，涉及人、球拍和球三者的多方交互——这种高阶关联仅通过两两建模难以捕捉。其二，Transformer 常采用稠密的全局注意力，导致大量冗余计算、高昂的开销以及模型收敛困难。

为缓解上述问题，超图作为传统图结构的扩展，因其显式建模高阶关联的能力而受到广泛关注。超图神经网络通过超边将多个顶点的关系编码在一起，有望更好地捕捉视觉数据中的复杂语义交互。例如，已有研究已初步验证了 HGNN 在视觉任务中的有效性。然而，将现有主要面向网络型数据设计的 HGNN 直接应用于视觉场景，会遇到两个关键瓶颈：

冗余超边。传统超图构建常基于 k 近邻或 ε‑球准则，为每个顶点生成一个超边。由于视觉任务中的顶点数（通常为 B×H×W，其中 B 是批量大小）极大，这种方法会产生大量远超实际有意义关联的超边，导致严重的计算冗余和效率低下。
硬超边的局限。已有 HGNN 多采用硬二值关联，要么将顶点完全包含于超边中，要么完全排除。这种刚性划分忽略了视觉语义的连续性与模糊性。例如在部分遮挡场景中，被遮挡区域应以较低权重参与相关超边，而非被完全剔除；而硬超边往往引入顶点冗余或覆盖不足，严重削弱模型性能。

针对上述瓶颈，我们提出了 Soft Hypergraph Neural Network（SoftHGNN），将超图计算方法扩展为既通用又高效的视觉识别框架。

核心创新：采用可微分的“软”顶点参与机制，以可学习的超边原型向量替代静态硬超边。模型通过度量视觉 Token 与原型向量的相似度，动态生成语义富集的软超边。每条超边都以可学习的连续权重，柔性地连接所有顶点，自适应地建模视觉特征中的抽象高阶关联。
计算效率：仅需维持常规模型规模的软超边集合，就能显著减少计算量，相较传统 HGNN 大幅提升效率。
模块化特性：SoftHGNN 可作为“即插即用”模块，方便地集成至各类视觉识别模型，填补现有方法在高阶关联建模方面的空白，从而带来明显的性能提升。

在某些复杂场景中，为了更全面地捕捉丰富的视觉语义关联，可能需要更多候选的软超边。但通常只有其中一小部分对识别任务至关重要。为此，我们引入了 稀疏超边选择机制：预定义较大规模的软超边集合，但仅选取最关键的 k 条进行消息传递；同时设计了 负载均衡正则化，防止超边过度活跃或长期未被选中，确保超边利用的充分与均衡。

为了验证方法的泛化与有效性，我们在五个主流数据集——CIFAR‑10、CIFAR‑100、ShanghaiTech Part‑A、ShanghaiTech Part‑B 以及 MS COCO 上，针对图像分类、群体计数与目标检测三类典型视觉任务进行了大规模实验。结果表明，SoftHGNN 系列方法均能高效准确地捕捉视觉场景中的高阶语义关联，显著提升各项任务性能。

主要贡献：

提出 Soft Hypergraph Neural Network（SoftHGNN），通过特征驱动的软超边机制，自适应地刻画视觉特征中的抽象高阶语义关联；
设计稀疏超边选择策略，扩展 SoftHGNN 的超边容量同时保持高计算效率，并引入负载均衡正则化以避免超边选择失衡；
在五个数据集、三类主流视觉识别任务上进行了大规模实验，充分证明了方法在捕捉高阶语义关联方面的精度与效率优势。

3. 传统超图基础理论

A. 超图

超图是对普通图的一种扩展，用于显式地刻画数据中的高阶关系。形式上，超图可表示为 $G = (V, E)$ ，其中 $V$ 是顶点集合， $E$ 是超边集合。与传统图中每条边只能连接两个顶点不同，超图中的每条超边可以同时连接任意数量的顶点，因此能够自然地捕捉多个顶点之间的复杂高阶关联。超图的结构通常由一个关联矩阵（或称为顶点–超边指示矩阵） $H\in\mathbb{R}^{|V|\times|E|}$ 来描述：若顶点 $v$ 属于超边 $e$ ，则 $H_{v,e}=1$ ，否则 $H_{v,e}=0$ 。

B. 超图神经网络

超图神经网络（HGNN）是一类将神经网络与超图结构相结合的表示学习方法，其核心是在超图上进行卷积（或消息传递），以捕捉高阶语义关联。一次典型的超图卷积包含两个阶段的聚合与散播：

顶点→超边聚合：将所有顶点的特征按超边关系聚合到超边上；
超边→顶点散播：再将超边上的信息反馈到顶点上。

记 $X^{(t)}\in\mathbb{R}^{|V|\times d}$ 为第 $t$ 层的顶点特征矩阵，超图卷积可写作：

$X^{(t+1)} = \sigma\bigl(D_v^{-1}\,H\,W\,D_e^{-1}\,H^\top\,X^{(t)}\,\Theta^{(t)}\bigr),$

其中

$H$ 是超图的关联矩阵；
$W\in\mathbb{R}^{|E|\times|E|}$ 为超边权重矩阵，通常取为单位矩阵；
$\Theta^{(t)}$ 是第 $t$ 层的可学习变换矩阵；
$\sigma(\cdot)$ 表示非线性激活函数；
$D_v$ 与 $D_e$ 分别是顶点和超边的度矩阵，其对角元定义为

$(D_v)_{i,i}=\sum_{e\in E}H_{i,e},\quad (D_e)_{j,j}=\sum_{v\in V}H_{v,j}.$

通过上述两步信息传递，HGNN 能够将多个顶点间的高阶关系融入到顶点表征中，从而提升模型的表达能力。

C. 复杂度分析

尽管超图及其神经网络在理论上能够有效建模高阶关联，但在大规模数据上其计算开销也十分可观。

超图构建的复杂度
- k‑最近邻（k‑NN）方法：需计算所有顶点对之间的距离，复杂度约为 $O(N^2D)$ ，其中 $N$ 是顶点数， $D$ 是特征维度。
- ε‑球方法：同样需检查每对顶点的距离是否小于阈值 ε，复杂度亦为 $O(N^2D)$ 。
无论哪种方法，最主要的瓶颈都在于成对距离计算，导致对于大规模顶点集的开销呈二次增长。
超图神经网络的复杂度
在一次超图卷积中，主要计算来自以下两个矩阵乘法：
- $H^\top X$ ：复杂度约为 $O (NM D)$ ，其中 $M = ∣ E ∣$ ；
- $H\,F_e$ ：同样为 $O (NM D)$ 。
综合而言，一次卷积的总体复杂度为 $O (NM D)$ 。在典型场景下，若超边数 $M$ 与顶点数 $N$ 同阶，则整体复杂度可视为 $O(N^2D)$ ，较普通图卷积或自注意力的二次复杂度并无显著优势。

上述分析表明，传统超图方法在大规模视觉数据上存在明显的效率瓶颈，亟需设计更高效的建图与卷积策略。

4. 方法论

模型架构图

A. 软超图的定义

传统的超图通过预定义的规则（如基于几何距离或相似度的阈值）构建超边，使得顶点与超边之间的关系是“全有”或“全无”的二元划分，难以刻画视觉数据中普遍存在的模糊与连续性。软超图则认为，在每一个高阶关系中，所有顶点都以不同程度参与其中，从而形成连续且可微的“软超边”。
形式上，软超图可表示为三元组

$G = \{X, A\},$

其中 $\in \mathbb{R}^{N\times D}$ 为顶点特征矩阵， $N$ 表示顶点数（即图像中的令牌数量）， $D$ 为特征维度； $\in [0,1]^{N\times M}$ 为参与矩阵，其元素 $A_{i,j}$ 反映顶点 $v_i$ 在超边 $e_j$ 中的参与程度。该设计既能更细腻地捕捉顶点—超边关系的连续性，也能通过可学习的方式动态生成超边，适应不同样本的全局语义特征。

B. SoftHGNN 概述

基于软超图的思想，我们提出了 Soft Hypergraph Neural Network（SoftHGNN），作为一套可插拔的高阶关系建模模块，能够嵌入任意视觉识别网络以提升性能。整体架构由三个核心部分组成：

软超边生成：利用一组可学习的超边原型向量，并通过上下文感知网络根据全局特征生成样本专属的超边原型；各顶点通过与这些超边原型的语义距离计算参与权重，形成连续的参与矩阵 $A$ 。
软超图消息传递：在构建好的软超图上，先将顶点信息聚合到超边，再将超边信息反向传播到顶点，以捕捉高阶交互。
稀疏软超边选择（可选）：在复杂场景中，先生成大量候选软超边，再通过稀疏选择策略仅保留最重要的部分，并配以负载均衡正则，防止部分超边过度或不足激活。
SoftHGNN 整体框架如图 1 所示，后续将对各模块做详细阐述。

C. 软超边生成

该模块根据输入顶点特征 $X$ 动态构建参与矩阵 $A$ ，包括三步：

动态超边原型生成
预定义一组全局共享的可学习超边原型 $P_0 \in \mathbb{R}^{M\times D}$ ，并对每个样本提取全局上下文特征 $f_{\mathrm{global}}$ ：对顶点特征矩阵 $\in \mathbb{R}^{N\times D}$ 分别做平均和最大池化，再拼接得到 $f_{\mathrm{global}}\in\mathbb{R}^{2D}$ 。上下文感知网络 $\phi$ 将其映射为偏移量 $\Delta P$ ，从而得到样本专属原型

$P_0 + \Delta P.$

该设计既保留了全局共享先验，又注入了样本级别的上下文信息，有助于准确捕捉高阶语义。
顶点特征预投影
为增强语义表现，将顶点特征线性变换到新空间

$X_{\mathrm{proj}} = W_{\mathrm{pre}}\,X,\quad W_{\mathrm{pre}}\in\mathbb{R}^{D\times D},$

并拆分为 $h$ 个头，每个头维度为 $D_{\mathrm{head}} = D/h$ ，以多头机制捕捉多样化子空间的高阶关系。
参与矩阵生成
在每个头内，计算顶点与超边原型的点积相似度并除以 $\sqrt{D_{\mathrm{head}}}$ 以稳定梯度，得到相似度矩阵

$S^{(\tau)} = \frac{X^{(\tau)}_{\mathrm{heads}}\,(P^{(\tau)}_{\mathrm{heads}})^\top}{\sqrt{D_{\mathrm{head}}}}\in\mathbb{R}^{N\times M},$

然后对所有头求平均并对每行做 Softmax，得到最终连续可微的参与矩阵

$A_{i,j} = \frac{\exp(S_{i,j})}{\sum_{k=1}^M\exp(S_{i,k})},\quad i=1,\dots,N,\;j=1,\dots,M.$

这一机制使每个顶点可根据语义相似度，以不同程度参与各软超边，实现更细粒度的高阶关联建模。

D. 软超图上的消息传递

在构建的软超图上，通过双阶段聚合与散播捕捉高阶交互：

从顶点到软超边的聚合
对超边 $e_m$ ，聚合所有顶点的特征加权和：

$f_m = \sum_{i=1}^N A_{i,m}\,x_i,\quad x_i\in\mathbb{R}^D,$

并通过线性变换与非线性激活进一步映射为超边特征

$f'_m = \sigma\bigl(W_e\,f_m\bigr).$
从软超边到顶点的信息散播
对顶点 $v_i$ ，将所有软超边信息汇聚回顶点：

$\tilde x_i = \sum_{m=1}^M A_{i,m}\,f'_m, \quad x'_i = \sigma\bigl(W_n\,\tilde x_i\bigr),$

其中 $W_e, W_n$ 分别为超边和顶点的变换矩阵， $\sigma$ 为激活函数。

以上过程可合并为矩阵形式：

$\sigma\Bigl(A\,\sigma\bigl(A^\top XW_e^\top\bigr)\,W_n^\top\Bigr).$

E. 稀疏软超边选择与负载均衡

在复杂场景中，需生成更多软超边以覆盖丰富高阶关联，但全量参与会带来冗余与计算负担。为此：

稀疏超边选择策略
将 $M$ 条超边分为固定超边集 $E_{\mathrm{fixed}}$ （始终激活）和动态超边集 $E_{\mathrm{dyn}}$ 。对每条动态超边 $e_j$ 计算其全局激活分数

$g_j = \sum_{i=1}^N S^{\mathrm{dyn}}_{i,j},\quad j=1,\dots,M_{\mathrm{dyn}},$

然后选取得分最高的前 $k$ 条超边与固定集并集，得到新的参与矩阵，最后再做 Softmax 归一化，以保持可微。
负载均衡正则
为防止部分超边被过度或不足激活，记录前 $T$ 次前向传播中每条动态超边的选中情况，计算其经验激活概率 $p_j$ ，并与理想均匀分布 $p_{\mathrm{target}}=k/M_{\mathrm{dyn}}$ 做均方差，构建正则项

$\mathcal{L}_{\mathrm{LB}} = \frac{1}{M_{\mathrm{dyn}}}\sum_{j=1}^{M_{\mathrm{dyn}}}(p_j - p_{\mathrm{target}})^2,$

以鼓励所有超边均匀贡献。

F. SoftHGNN 的复杂度分析

为了评估可扩展性，从理论角度分析 SoftHGNN 各阶段的计算复杂度：

软超边生成阶段
- 超边原型偏移预测：依赖全局上下文向量，复杂度约为 $O (N D)$ 。
- 多头投影与相似度计算：每个头需计算点积相似度，约需 $O(N\times M\times (D/h))$ 次运算，汇总后总计 $O (NM D)$ 。
消息传递阶段
- 顶点到超边聚合：矩阵乘 $A^\top X$ ，复杂度 $O (NM D)$ 。
- 超边到顶点散播：矩阵乘 $A\,F'_e$ ，同样为 $O (NM D)$ 。

综合来看，SoftHGNN 的主要计算成本为 $O (NM D)$ 。在常见设置下，超边数 $M$ （通常为一个较小的常数，如4，8，16）和特征维度 $D$ 都可视为常数，因此 SoftHGNN 难以被视为线性 $O (N)$ 增长，显著优于自注意力或传统 HGNN 的二次增长 $O(N^2)$ 。

5. 实验结果

A. 任务与数据集

为验证所提方法的优越性与通用性，我们在三类典型的视觉识别任务上进行了大规模实验：图像分类、群体计数和目标检测。共使用五个广泛应用的数据集：

图像分类：采用 CIFAR‑10 和 CIFAR‑100 数据集。CIFAR‑10 包含 60,000 张彩色图像，分为 10 类，每类 6,000 张；其中 5,000 张用于训练，1,000 张用于测试。CIFAR‑100 则扩展为 100 类，每类包含 600 张图像，训练集为 500 张，测试集为 100 张。
群体计数：使用 ShanghaiTech Part‑A 和 Part‑B 数据集。Part‑A 包含 482 张以稠密人群为主的图像，其中 300 张用于训练，182 张用于测试；Part‑B 包含 716 张较为稀疏的人群图像，训练集 400 张，测试集 316 张。
目标检测：选用 MS COCO 数据集，包含超过 328,000 张图像，涵盖 80 个物体类别，并提供边界框和实例分割掩码，是目标检测领域的标杆数据集。

B. 评估指标

图像分类：采用分类准确率（Accuracy）作为主要评价指标。
群体计数：使用平均绝对误差（MAE）和均方误差（MSE）衡量计数精度。
目标检测：采用 AP₅₀（IoU 阈值为 0.5 时的平均精度）和 AP_50:95（IoU 从 0.5 到 0.95、步长 0.05 时的平均精度）评估检测性能；同时报告模型的浮点运算量（FLOPs）、延迟（Latency）和参数量。

C. 实验设置

所有实验均在 NVIDIA RTX 4090 GPU 上进行：图像分类与群体计数任务使用单卡训练，目标检测任务并行使用 8 卡。

基础模型：图像分类以 Vision Transformer 为基线；群体计数以 Transformer 基础的 CCTrans 为基线；目标检测则选用 YOLO11 和 YOLOv12。
超参数：学习率固定为 1×10^–4，优化器为 Adam，采用余弦退火调度；数据增强包括随机裁剪、随机缩放和水平翻转。
SoftHGNN 设置：默认为 8 个注意力头、8 条软超边；在稀疏超边选择版本（SoftHGNN‑SeS）中，固定超边数为 16，动态候选超边为 32，稀疏率 50%。

D. 定量结果

1) 图像分类

在 CIFAR‑10 上，集成 Self‑Attention 模块并未带来显著变化；传统 HGNN 略有波动；而 SoftHGNN 分别比基线提升约 1.9% 的准确率；引入稀疏超边选择后（SoftHGNN‑SeS），进一步提升至约 2.5%。在 CIFAR‑100 上，SoftHGNN 和 SoftHGNN‑SeS 的提升幅度分别约为 1.8% 和 2.4%。
在CIFAR图像分类任务上的结果

2) 群体计数

在 ShanghaiTech Part‑A 和 Part‑B 上，使用 Twins‑PCPVT 骨干网时，SoftHGNN 系列在 Part‑A 的 MAE 和 MSE 分别提升约 3.6% 和 7.9%，在 Part‑B 的 MAE 和 MSE 分别提升约 7.9% 和 13.1%。改用 PVT 骨干网时，提升幅度更大：Part‑A 的 MAE 与 MSE 分别提升至约 3.7% 和 7.8%，Part‑B 分别提升至约 10.8% 和 16.0%。尽管性能显著提升，SoftHGNN 仅增加约 1M 参数，SoftHGNN‑SeS 增加约 6M 参数。

在ShanghaiTech数据集上人群计数任务的结果

3) 目标检测

在 MS COCO 上，我们对 YOLO11 和 YOLOv12 的 Nano、Small、Medium 三种规模模型分别进行了实验：

Nano 规模：SoftHGNN‑N 相较原版分别在 AP₅₀ 上提升约 2.2% 和 1.9%，在 AP_50:95 上提升约 2.0% 和 1.7%。
Small 规模：SoftHGNN‑S 在 AP₅₀ 上分别提升约 1.6% 和 1.0%，AP_50:95 上分别提升约 1.5% 和 1.0%。
Medium 规模：SoftHGNN‑M 在 AP₅₀ 上分别提升约 0.8% 和 0.6%，AP_50:95 上分别提升约 0.6% 和 0.3%。
同时，我们将 SoftHGNN 基于卷积分支的特征融合与分发模块（Fuse to SoftHGNN）插入 Detection Neck，充分利用软超边对多尺度特征的高阶关联建模。

MSCOCO目标检测结果-Nano

MSCOCO目标检测结果-Small
MSCOCO目标检测结果- Medium

E. 消融研究

1) 超参数敏感性

以 ShanghaiTech Part‑A 为例，固定软超边数为 8，测试注意力头数在 1、4、8、16 时的 MAE 与 MSE，结果在 4 或 8 头时表现最佳，最佳配置为 8 头；随后固定头数为 8，测试软超边数为 4、8、16、32，结果在 8 或 16 条时效果较优，以 8 条超边最为理想。过多超边并不总能提升性能，可能因过度冗余或对次要关联的过拟合所致。
在这里插入图片描述