KDD 2024 | 如何在图A上预训练，在图B上直接推理？大模型帮助图领域的零样本学习挑战...

最新推荐文章于 2025-06-01 19:34:47 发布

PaperWeekly

最新推荐文章于 2025-06-01 19:34:47 发布

阅读量572

点赞数 4

文章标签：学习

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/140810030

版权

人类面对新问题时，往往会将其与已知的知识联系起来。这一观念同样适用于机器学习（ML）。传统的 ML 方法多关注在训练过程中已见过的类别。然而，现实应用往往要求对未曾见过的类别进行分类，这就需要模型利用已有的知识进行推理和解决问题。例如，一个训练于动物图像的模型虽然未曾见过“斑马”，但通过理解“条纹”与“马”的概念，它仍能成功识别斑马。

在 AI 领域，特别是随着大型语言模型（LLMs）如 GPT-4 和 LLaMA 的出现，零样本学习能力（zero-shot ability）已取得显著进展。零样本学习是指模型在训练阶段未接触目标类别的情况下，依然能够进行分类的学习范式。

在自然语言处理（NLP）中，这种学习通常基于生成范式（generative paradigm），模型依靠对广泛语料库的预训练来处理新数据。而在计算机视觉（CV）领域，零样本学习则依赖检索范式（retrieval paradigm），如 CLIP 模型通过将图像与文本映射到一个共享空间，利用 embedding 相似性来识别新图像。

图学习作为多学科的交叉领域 [1]，虽广泛应用，但面临两大挑战：1）新图的出现，这使得在每个单独的图上训练图模型如图神经网络（GNNs）变得不切实际；2）由于图结构数据的复杂性和多样性，人类标记变得困难。

因此，探索图学习中的零样本学习显得尤为重要，这不仅能让图模型对未见过的图进行推广和推理，对于实现图基础模型（graph foundation model）的目标也是至关重要的，这些模型能够适应不同数据而无需额外的微调 [2]。

在论文中，我们我们首次系统性探讨了图领域零样本迁移学习的挑战与现有尝试。我们提出了一个新模型 ZeroG，其能够跨不同图数据集实现强大的零样本迁移学习能力。ZeroG 在不同领域的图数据集上展现出优秀的性能，在某些数据集上效果甚至可与半监督方法相媲美。

论文题目：

ZeroG: Investigating Cross-dataset Zero-shot Transferability in Graphs

收录会议：

SIGKDD 2024

论文链接：

https://arxiv.org/pdf/2402.11235

代码链接：

https://github.com/NineAbyss/ZeroG

问题描述 & 与现有任务对比

目前大多数关于节点分类的研究仅关注在单一图数据集上使用标注的节点通过半监督学习进行模型训练，以预测同一标签空间的未标注节点，这种方法我们称之为“图内半监督学习”（in-dataset semi-supervised learning）。然而，这些研究往往忽略了模型在图间的泛化能力 [3]。

近年来，关于 GNN 的迁移性，开始有研究聚焦于两个流行场景：无监督图域适应（UGDA, unsupervised graph domain adaptation）和图内零样本学习（in-dataset zero-shot transfer）。

如下图所示，UGDA 旨在上游的图上学习分类模型，然后在下游图上进行分类，在 UGDA 中上下游图具有相同的标签空间。而图内零样本学习则关注在单一图内的泛化能力，其目标是基于部分可见类别的标注节点进行训练后，将未标注节点分类到目标标签空间中的未见类别。

跨图零样本学习（cross-dataset transfer）是近期涌现在大量模型中（尤其是大模型）展示跨数据集转移能力的一个场景，主要出现在自然语言处理（NLP）和计算机视觉（CV）领域。

在本工作中，我们专注于跨图零样本节点分类任务。我们的目标是在数个完全标注的上游图上对模型进行预训练，并在一个完全不同的下游图上进行分类，注意此时下游图具有与上游图完全不同的标签空间。

跨图零样本学习与 UGDA 和图内零样本学习的不同之处主要在于：UGDA 需要上下游图具有一致的标签空间，这使得其无法在未知类别的下游图进行推理；图内零样本学习只能在单一图内进行零样本学习，遇到全新的图时则无法处理。而跨数据集零样本是一个非常实用的场景，但目前的工作还鲜有深入研究。

面临的主要挑战

我们注意到传统的 GNN 在跨图零样本学习中面临着诸多挑战，这包括但不限于：

1. 特征维度不对齐：在上游多个数据集上预训练时，特征维度的一致性对于预训练的图模型至关重要。现有的主流数据集通常采用浅层嵌入技术（shallow embedding），如词袋模型、Skip-gram 和 TF-IDF，这导致不同源数据集之间可能出现维度不一致的问题。例如，Cora 数据集的特征维度为 1433，而 Citeseer 为 3703。这种不一致使得模型难以在一个图上预训练后直接应用于另一个图，从而影响零样本迁移学习的效果；

2. 类别空间不匹配：GNN 的分类头的维度是基于预训练图的类别数量固定的，当目标数据集的类别数量不同时，可能会导致上下游类别空间问题。此外，即便来别数量相同，不同数据集中的类别含义也可能不同，如引文网络中的类别可能无法直接对应到社交网络的类别；

3. 负迁移：当上游数据集和下游数据集在结构或语义上有显著差异时，通常会导致负迁移现象 [4][5]。如果预训练的图模型过度拟合于上游数据集特有的特征，可能会导致在结构或语义上具有较大差异的下游数据集上性能下降。这是因为模型可能没有捕捉到足够的通用知识来实现有效的零样本迁移学习。

ZeroG

为了解决以上挑战，在本论文中，我们提出了一个名为 ZeroG 的模型，通过在上游数据集中对语言模型进行微调，ZeroG 能够在下游目标数据集上展示出显著的零样本学习能力。

3.1 统一图表征模块

为了解决维度不对齐问题，和 OFA [6] 类似，我们采用了一个统一的预训练语言模型来编码节点属性和类别描述。通过这种方法，我们将不同数据集的节点和类别特征映射到统一的语义空间和相同的维度，从而解决了跨数据集泛化时的维度不对齐问题。

3.2 基于提示节点的子图采样

在 ZeroG 中我们提出了一种基于提示的子图采样策略，这种策略通过从上游数据集中提取子图并引入一个提示节点来捕捉必要的结构和语义特征，以此构建预训练样本。

为了避免过于简化的子图并限制提取的子图数量，我们采用了限制性子图提取策略。在每个上游数据集中，我们迭代提取以每个节点为中心的 k-跳子图。此外，我们引入了基于类别的过滤标准，只考虑类别多样性高的子图。这保证了每个子图都能有效反映上游数据集的类别多样性，促进了上游数据集的语义迁移。

此外，我们为每个子图引入了一个语义增强的提示节点 [7][8] 作为携带特定数据集相关通用知识的唯一标识符。在预训练集合中，每个被提取的子图都被集成了一个提示节点，提供上游数据集的更广泛语义。这种提示节点的插入模式是全连接的，即提示节点与子图中的所有节点都连接。

3.3 预训练和推理阶段

在预训练阶段，我们采用 LoRA [9]，通过在变压器层中注入低秩矩阵来更新权重，有效降低预训练的资源消耗并最小化过拟合风险。训练中我们采用交叉熵损失进行优化。

预训练后，模型可以直接被应用于下游数据集进行推理，无需进一步微调。有趣的是，ZeroG 可以通过直接计算节点和类别间的相似度而无需任何分类头，实现了零样本学习下的推理，有效提升了模型在新图数据上的泛化性。

实验分析

我们在不同领域的 7 个图数据集上进行实验。为了公平比较，我们参照 OFA [6] 模型的处理方式，为 Cora、Pubmed、ogbn-arxiv 和 Wiki-CS 的节点和类别提供了文本信息。而对于 CiteSeer、P-Home 和 P-Tech，我们采用了 Chen et al. [10] 的原始文本处理方法。

我们在域内进行了零样本泛化实验。结果显示，ZeroG 在所有目标数据集上相比基线模型都实现了显著的性能提升，尤其是在 Pubmed 数据集上达到了 78.02% 的准确率，这与两种半监督学习方法相当。相比仅依赖结构的图自监督学习方法和完全基于文本相似性的语义相似性方法，我们的模型综合利用结构和语义信息，有效促进了零样本迁移。

为了更直观地体现 ZeroG 的有效性，我们对节点和类别的表示进行了可视化分析。通过将 Cora 数据集的表征映射到二维空间中进行可视化，可以观察到 ZeroG 得到的表征的类内聚合性更强，即相同类别的节点在嵌入空间中的聚合度更高。同时，类间区分性得到了提升，即不同类别的节点表示在空间中更具区分性。

未来与展望

跨图零样本学习作为一个新兴的任务，自 OFA [6] 首次提出该概念后，相关的研究工作还比较少。要想实现图基础模型的最终目标，提升图模型泛化性，尤其是零样本学习场景的泛化性是非常重要的。因为新图在源源不断地产生，图基础模型应当有能力来理解，分析从未见过的图（unseen graph），从而进一步执行下游任务。

在我们最新的 benchmark 工作 GLBench [11] 中，我们也对目前有zero-shot能力的模型进行了评测，评测结果表明现有模型在零样本学习场景下还有很大的提升空间。我们认为使用 GNN 或者 LLM 作为 backbone 都是很好的思路，希望更多的工作在该任务上被探索，走向真正的图基础模型。