Large Graph Models: A Perspective阅读笔记

最新推荐文章于 2025-05-23 18:27:54 发布

低调流年的微凉

最新推荐文章于 2025-05-23 18:27:54 发布

阅读量676

点赞数 1

文章标签：笔记

本文链接：https://blog.csdn.net/qq_40680309/article/details/133249313

版权

摘要

大型模型已经成为人工智能，特别是机器学习方面的最新突破性成就。然而，在图形方面，大型模型并没有取得与其他领域相同的成功水平，如自然语言处理和计算机视觉。为了促进向前应用大型图形模型，我们提出了一篇透视论文来讨论与开发大型图模型相关的挑战和机遇。首先，我们讨论了大型图模型的期望特征。然后，我们从三个关键的角度进行了详细的讨论：表示基础模型、图数据和图模型。在每个类别中，我们提供了最近的进展的简要概述，并突出了剩余的挑战以及我们的愿景。最后，我们讨论了大型图模型的有价值的应用。我们相信，这篇观点论文能够鼓励对大型图形模型的进一步研究，最终推动我们向人工一般智能（AGI）更近了一步。

引言

图通常被用来表示各种领域的实体之间的关系，如社交网络、分子图和运输网络，但在大型模型中尚未看到与其他领域相同水平的成功程度。在本文中，我们提出了一个关于与开发大型图模型相关的挑战和机遇的观点1。首先，我们介绍了大型图模型，并概述了四个关键的期望特征，包括具有缩放律的图模型、图基础模型、上下文内图的理解和处理能力，以及通用的图推理能力。然后，我们从三个方面提供了详细的观点： (1)对于图表示的基础，我们讨论了图的域和可转移性，以及图与自然语言的对齐。我们的关键结论是识别一个合适的、统一的表示基础的重要性，这是构建有效的大图模型的基本步骤；(2)对于图数据，我们将现有的图数据集与其他领域进行总结和比较，并强调其可用性。我们还讨论了llm作为图模型，这是一个新的趋势方向。最后，我们讨论了大型图模型对各种图形应用程序的重大影响，包括推荐系统、知识图、分子、金融、代码和程序，以及城市计算和交通。我们希望我们的论文能够激发对大型图模型的进一步研究。此外，我们还在 https://github.com/THUMNLab/awesome-large-graph-model上维护了一个与大型图形模型相关的论文的整理列表。

大图模型的期望特征

具有缩放定律

缩放定律表明，随着模型大小、数据集大小和训练计算的增加，LLM的性能不断提高.然而，在大型图模型中实现这一目标是非常重要的，因为收集数据、解决GNN的过平滑问题都很困难。

图基础模型

当一个大型图形模型可以作为图形基础模型时，即能够处理跨不同领域的不同图形任务时，它具有更大的价值。这就要求模型能够理解图的固有结构信息和图的属性，并具备图的“常识性知识”。由于图是具有极端多样性的一般数据表示，因此为所有图域开发一个“通用图模型”即使是极具挑战性的，也是极具挑战性的。

上下文内图的理解和处理能力

一个有效的大型图模型可以理解图上下文，包括节点、边、子图和整个图，并在最小样本测试期间处理新的图数据集和任务，并且不对范式进行密集的模型修改或更改。这一特性也与少/零样本图学习、多任务图学习和图分布外泛化相关，并可以促进其能力。

通用的图形推理功能

虽然图跨越了不同的领域，但也存在着共同的和基本的图任务，我们通常将这些任务的处理称为“图推理”。虽然对于这些任务是什么还没有明确的共识，但我们提供了以下一些具有代表性的例子。首先，一个大型的图模型应该了解基本的拓扑图属性，如图的大小、节点度、节点连通性等。这些特性为更深入理解图结构奠定了基础。

图表示基础

图域和可转移性

大型模型LLM可以作为基础模型，因为在经过预先训练后，它们可以适应广泛的下游任务。LLMs的显著能力源于对各种NLP任务存在一个共同的表示基础的基本假设。例如，用于自然语言处理的单词标记是通用的和信息保存的数据表示，不依赖于特定的任务。相比之下，图是跨越多个域的通用数据结构。因此，原始输入数据，即节点和边，可能并不总是处理所有图形数据的最合适的表示基础。例如，社会网络、分子图和知识图中的节点和边以其独特的特征和拓扑空间具有不同的意义。因此，基于输入图数据的直接信息共享和知识传输往往构成重大挑战。

人们普遍认为，存在更多的高级或抽象的公共图模式，这些模式可以在特定域内的不同图和任务之间共享。例如，在经典的网络科学中已经发现了许多人类可解释的模式，如同质性、小世界现象、节点度的幂律分布等。然而，即使有了这些高级共享知识，创建能够在不同图域中表现良好的有效大型模型仍然不是简单的。这些挑战在开发图形模型时带来了巨大的困难，比如主干架构，我们将在第5节中详细讨论。

与自然语言保持一致

最近的大型模型的另一个关键能力是它们与人类互动并遵循指令的能力，因为我们自然能够理解语言和视觉感知。相比之下，人类处理图形的能力则有所下降，尤其是更复杂的推理问题。因此，对于许多图形任务，通常没有“人类级别的性能”。因此，通信和指示大型模型按照我们想要的方式执行图形任务，特别是使用自然语言，是特别具有挑战性。我们总结了三类值得探索的策略来克服这一障碍。

第一种策略是通过大量成对的数据来对齐图形和文本的表示基础，这在原则上类似于计算机视觉。如果成功了，我们将能够使用自然语言与图形模型进行交互。例如，我们可以要求模型生成具有所需属性的分子图，或者要求模型执行具有挑战性的图推理任务。人们对文本属性图[26,27]进行了一些初步的尝试，这是一个很好的起点。然而，为一般图形收集此类数据比图像-文本对更加昂贵和具有挑战性。

第二种策略是将图转换为自然语言，然后只在语言基础上工作。使用该策略的一些初始尝试已经被设计出来，其中图结构被转换为文本表示，如邻接列表或边列表，并作为提示插入到LLM中.然后，使用自然语言来执行图的分析任务。我们将在第5.4节中提供更详细的讨论。然而，直接将图数据和任务转换为语言可能会失去图的内部结构和归纳偏差，导致任务性能不理想。为了进一步推进这一策略，需要更精细的设计，如有效地将图形结构和任务转换为文本的提示。

最后一类是寻找其他的表示基础，作为不同的图形任务和自然语言的中间地带。最直接的方法是使用神经网络的一些隐藏空间。然而，它面临的挑战是，深度神经网络在目前很大程度上还无法解释，更不用说找到人们想要的共享隐藏空间可能是一个令人沮丧的挑战。另一方面，虽然人类不能直接处理图的数据，但我们可以设计出合适的算法来解决图的任务，包括图论中许多著名的算法，如寻找最短路径、动态规划等。因此，如果我们能将图模型的行为与这些算法对齐，我们就可以在一定程度上理解和控制这些模型的行为。在这个方向上已经付出了一些努力，被称为算法推理，我们相信它包含了丰富的潜力.

总之，找到合适的表示基础，潜在地与自然语言对齐，并在不同的领域中统一各种图任务，这是构建成功的大型图模型的一个基本步骤。

图数据

大型模型的成功在很大程度上取决于高质量、大规模数据集的可用。NLP和CV任务的大量数据通常来自公开可访问的人工生成内容，比如普通爬行系统中的网页或用户在社交媒体上发布的照片，这些照片很容易从网络上收集到。相比之下，大规模的图数据则不那么容易访问。图形数据通常有两种情况：许多小规模的图，如分子图，或单个/几个大规模的图，如社交网络或引文图。例如，Open Graph Benchmark，最具代表性的图机器学习公共基准之一，包括两个大型图形数据集： MAG240M，它包含一个大约2.4亿个节点和13亿条边的大型引文图，和PCQM4M，它包含大约400万个分子。然而，尽管这些图数据集已经比常用的图基准测试大了几个数量级，但它们的规模比NLP或CV中使用的数据集要低得多。

图模型

骨干架构

GNN是图[36]中最流行的深度学习体系结构，并且已经得到了广泛的研究。大多数具有代表性的gnn采用消息传递范式，即节点与它们的邻居交换消息以更新它们的表示。然而，尽管在许多图形任务中取得了相当大的成功，但进一步将gnn推进到大型模型中的一个关键障碍是它们有限的模型容量。与大模型[16]的比例律相反，gnn的性能随着模型大小的增长而饱和甚至显著下降。许多研究都致力于解释这个问题，比如过度平滑[37]和过度压缩[38]，以及缓解它的策略。然而，这些进展并不是突破性的。到目前为止，大多数成功的gnn最多只有数百万个参数，而进一步扩展到数十亿个参数会导致最小的或没有额外的改进。
图Transformer是另一种扩展和适应于图数据的经典Transformer的架构。简而言之，由于经典的Transformer不能只处理图结构，因此图Transformer采用各种结构编码策略，将图结构添加到Transformer的输入中。图Transformer评估每个相邻节点的重要性，给提供更相关信息的节点更大的权重。自注意机制使图Transformer具有动态适应的能力。最成功的图变压器之一是图形[41]，它在2021年OGB大规模挑战[42]的PCQM4M分子属性预测任务中排名第一。许多努力从架构设计、效率、模型表达性等方面进一步改进图变换

GNN和图Transformer的区别：

聚合VS注意力。GNN使用消息传递函数来聚合来自相邻节点的信息，而图Transformer则使用自注意来权衡来自相邻节点的贡献，这潜在地增强了大型图模型的灵活性。
模型结构。GNN自然地将消息传递函数中的图结构作为归纳偏差，而图Transformer采用预处理策略，如结构编码，来合并结构。
深度和过平滑。深度GNN可能会出现过度平滑，导致其鉴别能力下降。另一方面，图Transformer在经验上并没有表现出类似的问题。一种合理的解释是，图Transformer自适应地关注于更相关的节点，使它们能够有效地过滤和捕获信息模式。
可伸缩性和效率。GNN的操作相对较简单，可以为某些任务提供计算好处。相比之下，
图Transformer中节点对之间的自注意机制可能是计算密集型的，特别是对于大型图。为了

进一步提高这两种方法的可伸缩性和效率，我们已经付出了大量的努力。

在目前的情况下，虽然GNN和图Transformer都取得了显著的进展，但目前还不太清楚哪一种

或其他一些架构可能是最好的适合作为大图模型的骨干。我们认为，考虑到现有图数据集的规模，GNN由于其强大的归纳偏差和表达能力，仍然是一个强大的主干模型。然而，随着训练图数据集的大小的不断增加，图 Transformer可能会通过增加参数的数量而变得更加强大，并逐渐成为流行的方法。

预训练

预训练是NLP中广泛采用的一种实践，如BERT和GPT，包括在将模型应用于特定任务之前，在大量数据集上进行训练。主要目标是捕获数据中出现的一般模式或知识，然后调整预先训练好的模型以满足下游需求。图预训练，也被称为无监督或自监督图学习，近年来受到了广泛关注。它的目的是捕获训练图数据中的固有结构模式。

与在语言建模中使用的直接而有效的掩蔽操作相比，图形预训练策略更加多样化和复杂，从对比方法到预测/生成方法。在对比的预训练方法中，通过各种图数据增强技术构造正图样本和负图样本，然后优化对比目标，如最大化正负对之间的互信息。另一方面，在生成方法和预测方法中，图数据的特定成分，如节点特征和边缘，首先通过掩蔽来隐藏。然后，图模型的目的是重建掩蔽部分，作为伪标签的预训练。

后处理

在通过预训练获得了大量的知识后，LLM仍然需要进行后处理，以增强其对下游任务的适应性。具有代表性的后处理技术包括提示、参数高效的微调、使用人工反馈的强化学习和模型压缩。

提示最初指的是为语言模型提供特定指令以为下游任务生成所需内容的方法。最近，使用上下文学习模板构建提示在LLM中显示出了很大的有效性。提示的关键是协调下游任务和训练前的任务。语言提示通常包含一个任务描述和几个用来说明下游任务的示例。图形提示模拟自然语言提示，在有限的标签下提高下游任务性能，并能够与模型交互，提取有价值的知识，已经得到了广泛的研究。
参数高效微调指的是只对一小部分模型参数进行优化，而其余部分保持不变的技术。除了降低计算成本外，它还有助于使模型适应新的任务，而不忘记在预训练中获得的知识，保留模型的一般能力，同时允许特定任务的适应。图参数高效微调最近也开始受到关注。例如，AdapterGNN通过合并两个适配器来调整gnn，一个是在消息传递过程之前插入的，另一个是在消息传递过程之后插入的。另一方面，g-适配器专注于图形变压器，并在适配器中引入了一个消息传递过程，以更好地利用图形结构信息。S2PGNN [66]进一步提出了寻找体系结构的修改，以提高微调阶段的自适应性。
模型压缩旨在通过各种技术，减少模型的内存和计算需求，包括知识蒸馏、剪枝和量化，这些技术在资源紧张的环境中部署大型模型时特别有价值。

总之，在LLM中所显示的后处理技术的成功引发了人们对图领域的类似研究的兴趣。然而，由于目前没有大的图模型，对这些方法的评估仅限于相对较小的模型。

LLM作为图模型

除了上述的工作之外，最近的研究也探索了直接利用LLM来解决图形任务的潜力。其基本思想是转换图数据，包括将图的结构和特征以及图的任务变成自然语言表示，从而将图的问题视为常规的NLP问题。

NLGraph 对自然语言中的8个图形推理任务进行了GPT-3和GPT- 4。这些任务跨越了不同层次的复杂性，包括连接器质量、最短路径、最大流量、模拟gnn等。经验发现，LLM显示出初步的图推理能力，但与更复杂的图问题作斗争，可能是因为他们仅捕获问题设置中的虚假相关性。同时，GPT4Graph也进行了广泛的实验来评估llm的图理解能力执行任务，如图大小和度检测、邻居和属性检索等。它揭示了LLM在图推理中的局限性，并强调了增强其str的必要性结构理解能力。LLMtoGraph还测试了GPT-3.5和GPT-4的各种图形任务，并进行了一些有趣的观察。

最近，Graph-LLM系统地研究了llm在文本属性图中的应用。具体来说，它探索了两种策略：llm作为增强子，其中LLM增强了代表在将节点的文本属性传递给gnn之前的文本属性的句子，以及llm作为预测器，其中LLM被直接用作预测器。对这两条管道进行了全面的研究实证结果为进一步利用LLM用于图机学习提供了有价值的见解。指导GLM进一步介绍了可伸缩的提示设计描述LLM指令调优的图结构和特征，使调优的LLM能够在推理阶段以生成的方式执行各种图形任务。实验进行对几个GNN基准的经验表明，采用llm进行图形机学习的巨大潜力。

虽然这些工作还处于早期阶段，但它们强调了llm也代表了开发大型图模型的一个有前途的途径，值得进一步探索和研究。

总结

总之，大量的研究工作已经致力于研究图形模型的各个方面，包括主干神经结构、预训练和后处理技术，如wel l作为新的趋势技术，如llm作为图形模型。然而，目前还没有明确的框架来有效地将这些技术集成到大型图模型中。因此，更多的努力需要比较现有的方法和开发先进的模型。在这一努力中，自动图机学习技术[82]，如图神经结构搜索，在r中很有价值教育人力努力，加速试错过程。

应用

通过利用领域知识和领域，专注于特定的图形相关的垂直领域，而不是试图压倒性地处理各种图形域和任务特定数据集。

知识图谱

知识图谱被广泛用于存储和利用人类社会中无处不在的知识。LLM已被用于各种知识图谱任务，包括构建、完成和问题回答，尽管这些方法取得了成就，但它们主要集中在文本信息上，而知识图的结构和关系信息缺乏探索。大型图模型有可能与现有的LLM相结合，可以极大地补充现状，进一步促进知识图谱的研究和应用。

分子

图是分子的自然表示，其中节点表示原子，边表示键。为分子建立有效的图模型可以推进各种应用，包括分子性质预测和分子动力学模拟，最终有利于药物的发现。目前，一些llm的变体被应用于分子，首先转化分子在使用简化的分子输入线输入系统进行字符串，它允许分子被表示为常规文本和生成。然而，图作为一个更自然的通过分析来表示具有众多建模优势的分子的结构信息，。同时，大量的基于图的分子预训练技术也被开发出来，包括多模态策略。此外，分子数据相对更容易收集，例如，ZINC20含有数百万种可购买的化合物。因此，我们相信这是基于图的或用于分子建模的图增强的大型模型很快就可以实现了。

金融

图机学习已被证明有利于多种财务任务，如股票移动预测和贷款风险预测。此外，大量丰富的金融数据使可以构建特定领域的大型模型，例如彭博社[95]。通过结合这两个世界的优势，大型图模型在金融领域的应用已经成立伟大的承诺。一个潜在的挑战在于大多数金融数据的敏感性和私人性质，这使得各行业不愿向公众发布相关的模型和数据。需要努力促进开源倡议和民主化，以充分释放在金融领域的大型图形模型的潜力。

代码和程序

由于在GitHub等存储库托管平台上有大量的代码数据，llm在理解和生成代码和程序方面显示出了非凡的能力。值得注意的例子公司排除了CodeX 、AlphaCode 和GPT-4 ，它们已经对编程领域产生了重大影响，甚至有可能重塑它。除了将代码和程序视为文本之外对于普通数据，图表提供了一种自然的方法来表示代码的结构方面。例如，抽象的语法树，包括控制流图、数据流图等，都有效地捕获了源代码的策略结构。研究表明，图的集成可以通过提供互补信息来进一步提高llm的性能。因此，大图模型在广泛的代码和程序相关任务中具有宝贵的潜力，包括代码完成和生成、代码搜索、代码审查、程序分析和测试。

城市计算与交通运输

图数据普遍存在于城市计算和交通领域，如道路网络。因此，图形机学习可以有利于许多应用，包括交通预测，成熟的城市规划和管理任务，犯罪预测，和疫情控制。此外，大规模的城市数据自然存在，如从GPS和不同领域收集的移动性数据 nsors.目前，一些基于llm的大型模型已经被探索用于城市计算和交通运输，如TransGPT。然而，它们的研究重点主要围绕着自然语言展开 e相关的应用程序，使开发大型图形模型的更广泛和更全面的利用仍然是一个开放的机会。这个过程中的一个主要技术挑战就是这个图表城市和交通环境下的数据本质上是动态的，包含复杂的时空格局。因此，一个大型的图模型需要有效地捕获结构上的和时间上的形成，以达到令人满意的性能。