原文:https://arxiv.org/pdf/2310.11829
摘要
基础模型已成为各种人工智能应用中的关键组件,并在自然语言处理和其他几个领域取得了巨大成功。 与此同时,图机器学习领域正在见证从浅层方法到更复杂的深度学习方法的范式转变。 基础模型在泛化和适应方面的能力促使图机器学习研究人员讨论开发新的图学习范式的可能性。 该范例设想了在广泛的图形数据上进行预训练的模型,并且可以适应各种图形任务。 尽管人们的兴趣日益浓厚,但仍明显缺乏与这一新领域相关的明确定义和系统分析。 为此,本文介绍了图基础模型(GFM)的概念,并对其关键特征和底层技术进行了详尽的解释。 根据 GFM 对图神经网络和大型语言模型的依赖,我们继续将与 GFM 相关的现有工作分为三个不同的类别。 除了对 GFM 的现状进行全面回顾之外,本文还展望了这个快速发展的领域未来研究的潜在途径。
关键词:
图基础模型,大型语言模型
1引言
随着计算能力的提高和深度学习技术的突破,人工智能(AI)社区引入了“基础模型”的概念: 基础模型是在广泛数据上训练的任何模型,可以适应各种下游任务 [1]。 基础模型具有独特的属性,如涌现和同质化,使它们能够作为无数下游 AI 应用的主要构建块 [1]。 涌现表明,随着基础模型的扩展,它可能会自发地表现出新的能力 [2]。 同时,同质化指的是模型的多功能性,使其能够部署在不同的应用中 [1]。 得益于大型语言模型(大语言模型)的发展,基础模型的概念首次在自然语言处理(NLP)中成为现实。 从那时起,基础模型就展现出了令人印象深刻的多功能性,不仅可以处理文本,还可以处理图像数据、视频数据、音频数据和多模态输入。 这种多功能性使它们能够在从计算机视觉 [3] 和音频信号处理 [4] 到推荐系统 [5] 的各种任务中表现出色。
就像自然语言处理的演变一样,图机器学习也正在经历范式转变。 在早期阶段,图任务主要采用浅层方法,如随机游走 [6] 和矩阵分解 [7]。 然而,这些方法通常局限于对未加属性图的转导学习 [8]。 最近向深度学习方法的转变促进了图神经网络(GNN)的兴起。 GNN 通过引入消息传递机制彻底改变了格局,其中节点迭代地聚合来自邻居的信息。 通过在完全监督、半监督或无监督的环境中利用 GNN,研究人员开创了各种定制的图模型。 这些进步在节点分类 [9]、链接预测 [10]、图分类 [11] 和图聚类 [12] 等任务中取得了重大改进。 然而,GNN 模型的某些挑战仍然存在。 例如,GNN 在表达能力 [13] 和泛化能力 [14] 方面存在限制,尤其是在不断扩展的数据集和不断扩展的任务范围内。
图 1:深度图学习和图基础模型之间的区别。 深度图学习通过端到端训练来解决特定数据集上的特定任务。 相反,图基础模型 (GFMs) 在广泛的图数据上进行预训练,并且可以适应各种下游图任务,预计将展现出涌现和同质化能力。
基础模型在各个领域取得的巨大成功越来越引起图机器学习研究人员的兴趣。 这自然引发了一个问题:图基础模型能否代表图机器学习的下一个前沿领域? 这些模型如果实现,将拥有增强的表达能力、改进的可移植性以及对更复杂的图形数据和任务的适用性。 如图 1 所示,图基础模型 (GFM) 被设想为在广泛的图数据上进行预训练的模型,为适应各种下游图任务做好准备。 与传统的基础模型相似,GFM 也有望体现两个主要特征:涌现性和同质化。 具体来说,涌现是指仅在大规模图模型中展示的新颖功能,而同质化则表示模型在不同类型图任务中的适应性。 现有的深度图学习方法很难涵盖这些特征:它们固有的架构和学习范式专注于特定任务,这限制了大量未标记数据的利用,从而限制了它们的表达和泛化能力。
受大语言模型作为自然语言处理基础模型的成功启发,研究人员探索了图基础模型的出现和同质化能力的可能性。 这些探索主要集中在GFM主干架构的设计,以及包括预训练和适应在内的不同学习范式,因为它们是大语言模型实现上述能力的关键策略。 首先,基础模型的涌现能力通常只存在于具有大量参数的主干中,而图神经网络的参数数量明显小于语言主干的参数数量。 这意味着图基础模型的主干可能需要重新设计,以实现更丰富的知识存储以实现出现。 由于图数据通常与富文本信息相关联,因此另一种方法是使用大语言模型作为图基础模型。 尽管如此,大语言模型是否能够有效地处理图数据和相关任务仍然不确定,并且确定如何在大语言模型中对图结构进行建模至关重要。 此外,基础模型的同质化需要以统一的方式处理不同的任务。 由于互连节点和各种形式的属性的复杂性,以及跨节点、边和图级别的任务的多样性,设计有效的借口任务和下游任务适应方法对于图数据来说是具有挑战性的。 因此,还需要设计合适的预训练任务和适应机制。
虽然设计和实现图基础模型没有明确的解决方案,但本文调查了一些相关研究,并根据对 GNN 和大语言模型的依赖将它们分为三种不同的方法:(1)基于 GNN 的模型:他们的目标是通过主干、预训练和适应方面的创新来增强现有的图学习范式; (2)基于LLM的模型:通过将图转换为文本或token,探索使用大语言模型作为图基础模型的可行性; (3)基于GNN+LLM的模型:他们探索GNN和大语言模型之间各种形式的协同作用,以增强它们的能力。
据我们所知,这是第一个针对图基础模型的调查。 现有的基础模型调查通常探索语言和视觉等模态 [1, 15],而不是图。 此外,还有两项调查 [16, 17] 专注于知识图谱和大型语言模型,但知识图谱由于其在构建和应用方面的独特性质,超出了本文的范围。 我们还注意到一篇非常近期的文章提到了大型图模型的概念 [18],但它强调了观点陈述,缺乏系统的分类。 因此,本文的贡献可以总结如下:
- •
本文首次定义了图基础模型的概念,并考察了其能力的核心问题和特点。
- •
本文介绍了一种新颖的分类法,并讨论了每种图基础模型方法的优点和局限性。
- •
本文为图基础模型提供了有前景的未来方向。
本文的后续部分组织如下。 在第 2 节中,我们将介绍与图基础模型相关的背景。 第 3 节定义了图基础模型,并突出了它们与语言基础模型的异同。 第 4 - 6 节分别深入探讨了将基于 GNN 的模型、基于 LLM 的模型和基于 GNN+LLM 的模型视为图基础模型的相关工作。 第 7 节讨论了图基础模型的未来方向。 在第 8 节中,我们将总结本文的要点。
2背景
在介绍图基础模型的概念之前,本节我们首先回顾一些背景知识,即深度图学习和语言基础模型。 具体来说,我们从数据、主干架构和学习范式三个方面进行介绍。
2.1深度图学习
许多现实世界的系统自然地以图形的形式找到它们的表示。 深度图学习因其在建模和表示实体之间复杂关系和交互方面的强大功能而在各个领域具有重要意义。 在本节中,我们提供了一个简洁的概述,涵盖了深度图学习的主要步骤,其中包括三个关键方面:图数据、主干架构和学习范式。
2.1.1图数据
图是一种多功能且强大的数据表示形式,可以捕获网络中实体之间复杂的关系和依赖关系。 图形数据具有以下几个特点。 (1) 非欧几里得性质:图数据本质上是非欧几里得的,因为它缺乏传统数据格式中发现的刚性几何结构 [19]。 与具有固定邻域区域和确定性顺序的欧几里得数据相反,图数据显式地编码实体之间的复杂连接。 (2) 各种领域:图数据在各种领域无处不在,包括社交网络 [20]、生物学 [21] 和交通运输 [22] 等。 各种领域中的图数据可以表现出不同的特征,包括不同的节点类型、边语义和结构模式。 例如,在生物网络中,节点可以代表蛋白质、基因或代谢物,而边可以表示相互作用,例如蛋白质-蛋白质相互作用或代谢反应。 这种领域特定的可变性使得创建能够有效地泛化并适应不同图结构的通用模型具有挑战性 [23]。 (3) 各种类型: 图数据有多种类型,包括同质图 [24]、异质图 [25]、超图 [26] 和动态图 [27] 等。同质图包含相同类型的节点和边,例如由论文组成的引用网络。 异构图包括不止一种类型的节点或边,例如包含作者和论文的引文网络。 超图由连接多个节点的超边组成,可以对节点之间的高阶关系进行建模。 动态图是指节点和边随时间变化的图结构,如通过变化的交通流形成的交通网络。
2.1.2主干架构
作为当前主流的骨干架构,图神经网络(GNN)已成为深度图学习的强大框架。 大多数 GNN 遵循消息传递框架 [28],该框架使图中的节点能够与其邻居交换信息。 例如,GCN [9] 引入了图卷积层的概念,为许多后续 GNN 架构奠定了基础。 GraphSAGE [29] 提出了一种使用归纳学习为大型图中的节点生成嵌入的方法。 此外,GAT [30] 将注意力机制引入 GNN,使节点能够在消息传递期间权衡其邻居的重要性,从而增强其表达能力。 这些工作对 GNN 的进步做出了重大贡献,使其成为深度图学习的多功能工具。
尽管更深的深度神经网络可以实现更强的表达能力 [31],但加深 GNN 并不容易。 原因是,随着 GNN 层数的增加,在消息聚合过程中引入了过多的信息,导致所有节点的表示变得相似 [32]。 这也称为过度平滑问题。 此外,层数的增加会导致感受野的指数级增长,从而导致过度压缩问题 [13],其中大量信息被压缩到固定长度的节点向量中。 近年来,人们为解决深度图神经网络中的过度平滑问题和过度挤压问题做出了一些努力,从而提高了下游任务性能。 例如,DropEdge [33] 等创新通过随机移除边来增强 GCN 模型,以提高性能和可扩展性(高达 64 层)。 另一个提高 GNN 表达能力的研究方向是图 Transformer [34, 35, 36]。 由于其完全连接的注意力机制和长程关系建模能力,图 Transformer 架构可以缓解过度平滑问题和过度压缩问题 [37]。
2.1.3学习范式
深度图学习的学习范式包括三个主要类别:监督学习、半监督学习和无监督学习。 在本节中,我们将简要介绍这些学习范例。
监督学习。 在监督设置中,算法利用包含输入数据与相应输出标签配对的训练数据集。 这种范式在图分类 [38] 和图回归 [39] 等任务中找到了实际应用。 例如,在分子性质预测任务 [40] 中,GNN 模型经过训练以使用标记的训练数据预测分子的特定化学性质或属性,从而能够发现对药物开发和材料研究有价值的见解。
半监督学习。 半监督学习,如最近一项研究 [41] 中所强调的,构成了深度图学习的主要焦点。 这种方法利用标记和未标记数据来提高模型性能,节点分类 [9] 成为一个突出的应用。 消息传递机制 [28] 使 GNN 能够在相邻节点之间迭代地交换信息。 此功能可以在整个图表中传播信息,有效地合并标记和未标记的数据以促进预测。 此外,GNN 还可以与传统方法(如标签传播)相结合,以进一步提高它们在半监督环境中的性能 [42]。
无监督学习。 无监督学习 [43] 是一种更广泛的机器学习方法,它旨在从没有手动标签的数据中学习模式和结构。 例如,图聚类 [44] 旨在仅基于节点之间关系和连接来发现图中固有的结构和模式。 另一个例子是链接预测,旨在预测丢失或即将到来的连接关系。 无监督学习的一个重要子类是自监督学习,它旨在使用数据本身固有的信息来生成标签 [45]。 基于自监督学习,GNN 可以端到端地进行训练,并应用于下游任务,例如图聚类 [12] 和链接预测 [10]。
2.2语言基础模型
人工智能目前正在经历一场变革,其标志是一些特定自然语言模型(例如 GPT-3)的出现,这些模型使用大规模自监督学习在广泛且多样化的数据集上进行训练。 这些模型被称为基础模型,能够产生广泛的输出,使它们能够处理广泛的下游任务。 与深度图学习管道相比,基础模型的方法采用预训练和适应框架,使模型能够实现一些重大进步,包括出现 [2] 和同质化 [1]。 基础模型主要在 NLP 领域确立了自己的地位 [1],因此,本节将重点讨论语言基础模型。
2.2.1语言数据
语言数据是指人类语言中的文本或口头内容,包含自然语言的语法规则和单词的相关语义。 它可以包括书面文档、转录的录音以及任何其他形式的基于语言的通信。 语言数据对于许多 NLP 任务至关重要,例如机器翻译、情感分析和文本摘要。 研究人员和开发人员使用语言数据来训练和评估语言模型和其他 NLP 算法。 语言数据的质量和数量对 NLP 系统的性能起着至关重要的作用,影响其在各种语言任务中的准确性、鲁棒性和整体有效性。 与计算机视觉和其他领域相比,带注释的语言数据的大小相当小,仅包含几千个句子 [46]。 这种限制主要是由于手动标注的成本较高。 然而,互联网、报纸和书籍等来源提供了大量未标记的语言数据,为在模型预训练中利用未标记数据创造了机会。 此外,与图数据相比,语言数据作为欧几里得数据更容易建模,其丰富的语义信息显着增强了语言模型的知识可迁移性。
2.2.2骨干架构
基础模型的早期突破是预训练语言模型(PLM),旨在捕获上下文感知的单词表示,事实证明,它作为多功能语义特征非常有效。 例如,BERT [47] 基于可并行的 Transformer 架构 [48](具有自注意力机制),它是通过在海量未标记数据上对双向语言模型进行预训练,并使用专门设计的预训练任务来实现的。 这项具有里程碑意义的研究显着提高了 NLP 任务的性能基准,并成为大量后续研究的催化剂,建立了流行的预训练和微调学习范式。
此外,研究人员观察到,增加 PLM 的规模,无论是通过增加模型大小还是训练数据,通常都会增加下游任务的模型容量。 这些较大的 PLM 统称为大语言模型,与较小的 PLM(例如 1.5B 参数 GPT-2 和 175B 参数 GPT-3)相比,表现出独特的行为。 在对海量文本数据集进行训练后,它们展现出非凡的能力,通常被称为涌现能力 [2],例如上下文学习 [1]。 大语言模型主要利用Transformer架构,因为基于Transformer的高度并行化架构加速了预训练阶段并能够利用海量数据集。 在 Transformer 模型的上下文中,标记充当输入并表示自然语言文本中单词级别的单位。 通常,包含数千亿(甚至更多)参数的 LLM [49],例如 GPT-3 [50]、PaLM [51]、Galactica [52] 和 LLaMA [53] 模型。
2.2.3学习范式
随着模型参数数量的迅速增加,对更大数据集的需求也在增长,以有效地训练这些参数并避免过度拟合。 考虑到构建大规模标记数据集的成本极其昂贵,利用大量未标记文本数据的重要性已经被强调。 利用这些未标注的数据集涉及一个两步法:首先,通过自监督学习实现通用表示,然后将这些表示用于各种任务 [54]。 根据不同的适应方法,学习范式可以分为两种类型:预训练和微调,以及预训练、提示和预测 [55]。
预训练和参数。 在这种范式中,具有一致架构的模型最初被预训练为语言模型(LM),它预测观察到的文本数据的概率。 与端到端训练相比,预训练具有明显的优势,是基础模型能力的基石。 首先,在庞大的文本语料库上进行预训练使学习通用语言表示成为可能,这可能是解释涌现能力的一个可能原因 [54]。 此外,预训练提供了改进的模型初始化,通常会导致增强的泛化性能,从而实现多个任务的同质化 [54]。 此外,预训练作为一种正则化形式,有助于防止在较小的数据集上过拟合 [56]。 例如,像 GPT-3 [50] 这样的模型是通过语言建模目标进行训练的,奖励它们在涌现和同质化方面的能力。
在预训练阶段之后,基础模型获得适合广泛任务的通用功能。 然而,预训练模型仍然缺乏下游任务特定信息,直接使用它们可能不会产生最佳结果。 因此,我们需要针对特定任务对模型进行调优,这就是所谓的微调。 在 ULMFit [57] 和 BERT [47] 等模型成功的基础上,微调已成为适应预训练模型的主要方法。 在此框架中,主要重点在于目标工程,包括预训练和微调阶段的训练目标设计。 例如,Pegasus [58] 表明,将预测文档中重要句子的损失函数纳入模型,可以得到一个改进的预训练模型用于文本摘要。 微调的优点是它可以在源任务和目标任务(或域)之间传递知识,并有利于模型的性能。 对于与预训练数据集相比规模较小的微调数据集,此过程可以有效地实现自适应,而不会丢失存储的结构语言知识。
预训练、提示和预测。 在这种范式中,该方法不是调整预先训练的语言模型以适应特定的下游任务,而是重塑下游任务,使其与原始 LM 训练期间处理的任务更紧密地结合起来,通过提供文本提示来完成。 通过选择合适的提示,我们可以引导 LM 的行为,以便它可以预测所需的输出,有时不需要任何额外的特定于任务的训练。 该方法的优点是可以使一个完全无监督的 LM,当配备一组合适的提示时,能够处理各种任务 [55]。
从提示工程的角度来看,创建合适的提示的方法可以分为手动方法和自动化方法。 手动方法涉及根据人类洞察力创建直观的模板,这是制作提示的最直接的方法。 例如,有影响力的 LAMA 数据集 [59] 提供了手动设计的完形填空模板来评估语言模型的知识。 然而,手动方法面临着高成本和精度方面的挑战。 为了解决这些问题,一些方法已经开始尝试自动提示生成。 例如,提示挖掘 [60] 是一种模板发现方法,它可以根据给定的训练输入和输出自动识别模板。
从不同的角度来看,在模型和提示如何结合以生成结果方面,提示策略可以分为三种方法:免调优提示、提示调优和指令调优 [5]。 免调优提示仅基于提示直接生成答案,而不改变预训练 LLM 的参数 [53] [61]。 提示调优除了预训练模型的参数外,还引入了补充提示相关参数,并使用从下游训练样本中获得的监督信号更新这些附加参数 [62] [63]。 指令调整以类似于微调过程的方式调整 LM 的参数,同时另外合并固定指令来指导模型的行为。 这种方法提供了潜在的增强,尤其是在零样本场景中 [64]。
3图基础模型
在本节中,我们将首先正式定义图基础模型的概念,包括定义、关键特征和关键技术。 然后,我们将讨论图数据和图任务对图基础模型的影响。 最后,我们将讨论图基础模型和语言基础模型之间的异同。
3.1图基础模型的概念
在本小节中,我们将首先提供图基础模型的定义。 接下来,我们将深入研究图基础模型的关键特征和基本技术,以及图数据和图任务对图基础模型的影响。
3.1.1定义和关键特性
我们定义图基础模型如下:
定义 图基础模型 (GFM) 是一种模型,它有望从广泛的图数据的预训练中受益,并且可以适应各种下游图任务。
与采用端到端训练的深度图学习相比,GFM 使用预训练从大量未标记的图数据中获取知识,然后使用适应技术来适应各种下游任务。 一些研究 [65, 66] 已经证明,在某些场景中,预训练和适应的范式优于深度图学习,例如,少样本学习 [65],展示了它们优越的表达能力和泛化能力。 与旨在在单个任务上获得更好性能的深度图学习不同,GFM 预计具有两个关键特征:涌现和同质化。
出现。 涌现是指图基础模型在参数较大或接受更多数据训练时会表现出一些新的能力,也称为涌现能力。 受基础模型拥有的各种涌现能力 [67, 68, 69] 的启发,我们期望 GFM 具有类似的能力,包括上下文学习、图推理和零样本图生成等。 上下文学习允许对各种下游任务进行少量示例的预测 [70]。 图推理根据图结构将复杂问题分解为多个子问题,并逐步解决它们,例如解决图算法问题 [71]。 零样本图生成要求模型根据所需条件生成图,而无需任何示例 [72]。 请注意,虽然语言基础模型已经展示了各种涌现能力,但到目前为止,只有少数研究 [70, 71, 72] 探索了 GFM 的涌现能力。
同质化。 同质化意味着图基础模型可以应用于不同格式的任务,例如节点分类、链接预测和图分类。 请注意,由于图任务与 NLP 任务相比具有明显的特征,实现同质化并不简单。 实现同质化的根本问题是决定以何种形式统一不同类型的图任务。 现有工作已尝试通过链接预测 [65] 或图级任务 [66] 来实现同质化,但目前尚无共识哪种方法更优。
3.1.2关键技术
图基础模型主要包含两个关键技术:预训练和适应。 本节将简要概述这两种技术。
预训练。 预训练是图基础模型开发中的关键概念,类似于它在语言模型中的作用。 它涉及以自我监督的方式在大型图数据集上预训练神经网络。 在预训练期间,模型学习捕获图中的结构信息、关系和模式。 图基础模型有多种预训练策略。 对比自监督学习 [73, 74] 利用通过对比正样本(例如,相似的节点对)与负样本(例如,不相似的节点对)来学习表示的想法。 生成式自监督学习 [75, 76] 鼓励模型重建原始图数据的结构或预测其特征。 如果将 LLM 作为图基础模型的一部分,我们也可以采用第 2.2.3 节中介绍的预训练方法。 这些多样化的预训练方法使图基础模型能够从原始图数据中学习有意义的表示,从而增强其在各种图任务中的泛化性和适应性。
适应。 图基础模型的适应涉及根据特定的下游任务或领域定制这些模型以增强其性能。 这个过程包括多种技术,即普通微调、参数高效微调和即时调整。 普通微调(Vanilla FT)需要在特定于任务的数据上训练整个预训练模型,允许最高级别的定制,但通常需要大量数据和计算资源。 另一方面,参数高效微调(Parameter-efficient FT) [77, 78] 仅调整模型参数的一个子集,在特定任务的适应性和资源效率之间取得平衡。 提示调优 [79, 66] 是一种灵活的方法,它依赖于外部提示来引导模型的行为,使其更具适应性和有效性。 这些适应技术使图基础模型能够利用其预先训练的知识,同时根据特定任务或领域定制其功能,从而在广泛的应用程序中表现出色,从而使它们对各种下游应用程序有价值。 值得注意的是,尽管 LLM 开发了各种类型的提示调优方法 [55] 以及一些其他高效调优方法,例如前缀调优 [62] ,但针对图基础模型的提示调优方法相对较少。
3.1.3图数据的影响
基础模型的成功取决于高质量的训练数据,并且基础模型在不同类型的测试数据上表现出显着不同的性能。 本节我们从图类型、图规模和图多样性三个方面讨论图数据对图基础模型的影响。
图表类型。 根据图中节点和边的类别数量,我们可以将图分为同构图和异构图。 在同构图中,所有节点和边都属于同一类别。 例如,在节点代表个人(用户)、边代表友谊关系的社交图中,它是同构图,因为所有节点都是个人,所有边代表友谊关系。 另一方面,异构图具有不止一种类型的节点或边,代表不同类型的实体和关系 [25] 。 例如,电子商务图可以包括用户、产品和购买关系的节点,形成异构图。 对于图基础模型来说,处理异构图带来了更大的挑战,通常需要设计特定的主干架构和优化目标。 尽管如此,利用基于元路径的方法 [80] ,异构图可以映射到多个同构图,每个元路径对应一个图。 例如,可以将在同构图上训练的 GFM 分别应用于这些元路径诱导的同构图中的每一个,以获得节点嵌入。 然后,不同元路径下同构图上的这些嵌入可以融合在一起。 然而,除了同构图和异构图,现实世界中还有一些更复杂的图类型,例如动态图和超图 [81] ,这对 GFM 构成了额外的挑战。
图形比例。 根据图中节点和边的数量,我们可以将图分为相对较小的图和较大的图。 小图规模较小,通常包含数十到数百个节点和边。 例如,化学分子图表示小分子的结构,通常由数十到数百个原子组成。 另一方面,大型图是指具有大量节点和边的图,通常包含数百万甚至数十亿个节点和边。 例如,阿里巴巴的电子商务图包含数十亿个节点和数百亿条边 [82] 。 对于图基础模型来说,大图对图基础模型的能力提出了更高的要求。 首先,大型图由于其大量的节点和通常稀疏的边,引入了更多噪声,并在存储和计算方面带来了更大的挑战 [83] 。 此外,大型图通常表现出长距离依赖关系 [84] ,需要更多神经网络层和更多参数,加剧了基于 GNN 模型的过度平滑 [32] 和过度压缩 [13] 问题。
图形多样性。 根据图数据集是否源自同一域,我们可以将图分为同域图和跨域图。 同域图是指来自相似或相关域的图数据,通常包含相似类型的节点和边。 例如,Facebook 和微信的社交图来自相似的领域。 另一方面,跨域图 [85] 涉及来自不同领域或数据源的图数据,通常包含不同类型的节点和边,旨在解决多领域问题或跨领域任务。 例如,学术网络和分子图来自不同的领域。 对于图基础模型来说,支持跨域图带来了更大的挑战,因为来自不同域的图缺乏统一的底层语义。 当将模型应用于新数据集时,这可能导致弱迁移性能甚至负迁移 [86] 。 因此,解决不同领域的异构性并使相同的 GFM 能够应用于不同领域的图是 GFM 面临的重大挑战。
表一:语言基础模型和图基础模型之间的关系。
Language Foundation Model | Graph Foundation Model | ||||
---|---|---|---|---|---|
相似之处 | Goal |
|
|||
Paradigm | Pre-training and Adaptation | ||||
Intrinsicdifferences | Data | Euclidean data (text) |
|
||
Task | Many tasks, similar formats | Limited number of tasks, diverse formats | |||
Extrinsicdifferences | 骨干架构 | Mostly based on Transformer | No unified architecture | ||
Homogenization | Easy to homogenize | Difficult to homogenize | |||
Domain Generalization | Strong generalization capability | Weak generalization across datasets | |||
Emergence | Has demonstrated emergent abilities | No/unclear emergent abilities as of the time of writing |
3.1.4图任务的影响
语言基础模型可以广泛应用于各种NLP任务,而对于图基础模型来说,图任务的格式也相当多样,可以分为三类:节点级任务、边缘级任务和图级任务。
节点级任务。 节点级任务是指在每个节点上执行的分类、回归或预测。 常见的节点级任务包括节点分类、节点回归和聚类系数预测。 例如,在社交网络中,图节点可以代表用户,节点分类可以用于识别来自不同社交圈或具有不同兴趣的用户。
边缘级任务。 边缘级任务涉及在每个单独的边缘上执行的分类、回归或预测。 常见的边缘级任务包括边缘分类、链路预测、最短路径预测、连通性预测和最大流预测。 例如,在电子商务中,链接预测可用于预测用户可能感兴趣的产品。
图形级任务。 图级任务关注整个图。 常见的图级任务包括图分类、图回归、图生成、图聚类、图压缩和平均聚类系数预测。 例如,在生物信息学中,图性质预测可用于预测分子化合物的生物活性或毒性,从而加速药物发现过程。
综上所述,图任务的格式非常多样化,可以分为三种类型:节点级、边级和图级,每种类型都有广泛的应用。 这无疑增加了图基础模型同质化的挑战。 例如,在合成数据集上的图分类和节点分类任务中,对结构信息的建模通常更为重要 [87] 。 另一方面,当处理具有丰富节点特征的图上的节点分类任务时,建模特征信息变得更加重要 [87]。 此外,彼此更相似的任务也将具有较低的转移难度,这意味着这些任务更有可能使用相同的 GFM 来解决。 虽然增强表达能力有望提高许多节点级、边级和图级任务的性能 [88],但也有一些工作表明,对于图生成任务来说,过强的表达能力可能并非必要 [89]。
3.2与语言基础模型的比较
通过概念上的比较,我们可以观察到图基础模型(GFM)和语言基础模型(通常称为大语言模型,大语言模型)在目标和学习范式上的相似性。 然而,图数据和图任务的独特性造成了它们之间的根本差异,我们将其称为它们的内在差异。 此外,由于目前对GFM的研究相对有限,大语言模型中广泛探讨的许多问题仍未得到解决,我们将其称为它们的外在差异。 我们在表 I 中总结了 GFM 和 LLM 之间的异同,并将在本节中详细讨论。
3.2.1相似之处
如表 I 所示,语言基础模型和图基础模型都具有共同的目标,即增强模型的表达能力,并提高其在广泛的任务范围内的泛化能力。 他们的目标是创建可适应特定应用的多功能预训练模型。 此外,两者都遵循预训练和适应范式。 他们首先在大型、多样化的数据集上预训练模型,然后使其适应特定于任务的数据。
3.2.2内在差异
GFM与大语言模型的本质区别主要体现在数据和任务两个方面。 对于输入数据,语言基础模型主要是为处理欧几里得数据(即文本)而设计的。 它们接受大量文本语料库的训练,这些文本语料库本质上是连续的,并且遵循单词或标记的线性顺序。 另一方面,图基础模型旨在处理非欧几里德数据(表示为图结构)或欧几里德数据(如图属性)和非欧几里德数据的混合。 与文本数据相比,图数据可以捕获复杂的数据关系,并且通常更加稀疏。 此外,正如第 3.1.3 节中提到的,不同的图可能在类型或规模方面存在显著差异,所有这些都对 GFM 的设计提出了挑战。 此外,语言数据即使来自不同领域的文本,仍然共享共同的词汇。 另一方面,不同的图形数据可能缺乏这个共同的基础。 例如,节点代表分子图中的原子,而节点代表社交网络图中的用户,这是完全不同的。
此外,LLM 通常被设计用于处理数十项任务 [90],但这些任务都可以统一在掩码语言建模的格式下。 原因是这些任务都涉及处理文本数据并使用文本中的语法和语义信息。 相比之下,GFM 关注的任务范围较窄,但形式多样。 他们擅长节点分类、链接预测和图分类等图任务。 任务的差异意味着GFM无法使用类似于大语言模型的方法来学习,这显着增加了GFM在下游任务中的适应性挑战。
3.2.3外在差异
除了数据和任务上的内在差异外,GFM和大语言模型之间还存在一些外在的差异,这是由于GFM技术进步的滞后性造成的。 本节将这些差异总结如下:
骨干架构。 语言基础模型,例如 GPT-3 [50] 和 LLaMA [53],主要基于 Transformer 架构。 Transformer在表达能力、可扩展性、可并行性等方面的优势,以及处理各种NLP任务的优异性能,使其成为大语言模型的主流骨干架构。 然而,对于 GFM 来说,使用主流的 GNN 作为主干架构可能并不一定合适。 这主要是因为 GNN 的表达能力和泛化能力存在局限性,而且它们的参数大小往往太小而无法展现涌现能力。 尽管最近的研究工作致力于设计图 Transformer [74] 或包含 LLM 的模型 [91],但对于 GFM 来说,仍然没有统一的主干架构。
同质化。 语言基础模型相对容易同质化。 这意味着各种 NLP 任务可以被表述为同一任务 [92],从而可以使用具有统一训练范式的单个模型来处理广泛的任务。 然而,由于图结构知识的可迁移性较差,同质化对于 GFM 来说更具挑战性。 现有工作试图通过将各种任务统一为链接预测 [65] 或图级任务 [66] 来实现同质化。 此外,构建数据任务异构图 [70] 可能在不同任务之间建立联系,但这是一个更复杂的过程。
域泛化。 语言基础模型表现出了强大的领域泛化能力。 他们通常可以在训练期间未见过的任务和数据集上表现良好,展示了他们在各种语言相关领域进行泛化的能力。 但是,由于图数据的多样性和缺乏统一词汇,GFM 通常在跨数据集的泛化能力较弱,尤其是在转移到跨域图数据时 [86]。 当面对与其训练数据有很大差异的图形结构或特征时,他们的性能可能会显着下降。 对于 GFM 来说,实现强大的领域泛化仍然是一个具有挑战性的研究问题。
出现。 语言基础模型已经显示出新兴的能力,它们可以根据很少的示例或指令生成连贯且上下文相关的文本。 代表性新兴能力包括上下文学习 [67]、思维链推理 [68] 和零样本生成 [69]。 然而,GFM 尚未表现出与语言基础模型相同程度的明显涌现能力。 最近只有少数研究探讨了 GFM 的上下文学习 [70]、图推理 [71] 和零样本图生成 [72] 能力。
3.3摘要
在本节中,我们定义了图基础模型和相关技术的概念,并将图基础模型与语言基础模型进行了比较。 在接下来的部分中,我们将介绍实现图基础模型的三类方法,以及每种方法的代表性工作,如图 2所示。 基于GNN的模型使用GNN作为主干架构,而基于LLM的模型将图转换为大语言模型的输入格式并使用大语言模型作为主干架构。 另一方面,基于 GNN+LLM 的模型同时利用 GNN 和大语言模型作为骨干架构。 主干架构的区别也会影响预训练和适应的方法。 因此,在下面的章节中,我们将分别介绍每一类方法的主干架构、预训练和适应策略。
4基于 GNN 的模型
分叉边缘,文件夹缩进=1cm,where=level()¡1文件夹,grow'=east,where=level()¿0l sep+=1cm,对于树=叉sep=4mm,厚,边缘=厚,字体=, if nchildren=0if n=1yshift=-5mm, forparent=s sep=0mmdraw, 最小高度=4ex, 最小宽度=4cm [走向图基础模型, calign=边缘中点, s sep=2cm , 字体= [基于 GNN 的模型 [主干架构 [基于消息传递 4.1.1] [基于图 Transformer 4.1.2] [, 无边,对于子节点=无边] ] [预训练 [对比方法 4.2.1] [生成方法 4.2.2] [, 无边,对于子节点=无边] ] [适应 [微调 4.3.1] [提示调优 4.3.2] ] ] [基于 LLM 的模型 [主干架构 [图到符元 5.1.1] [图到文本 5.1.2] [, 无边,对于子节点=无边] ] [预训练 [语言建模 5.2.1] [掩码语言建模 5.2.2] [, 无边,对于子节点=无边] ] [