本文是LLM系列文章,针对《GraphGPT: Graph Instruction Tuning for Large Language Models》的翻译。
摘要
图神经网络(GNN)通过图节点之间的递归信息交换和聚合,提高了对图结构的理解。为了提高模型的鲁棒性,自监督学习(SSL)已成为一种很有前途的数据增强方法。然而,现有的生成预训练图嵌入的方法通常依赖于对特定下游任务标签的微调,这限制了它们在标记数据稀缺或不可用的情况下的可用性。为了解决这一问题,我们的研究重点是在具有挑战性的零样本学习场景中提高图模型的泛化能力。受大型语言模型(LLM)成功的启发,我们的目标是开发一种面向图的LLM,即使没有来自下游图数据的任何信息,也可以在不同的下游数据集和任务中实现高度泛化。在这项工作中,我们提出了GraphGPT框架,该框架将LLM与图结构知识以及图指令调优范式相结合。我们的框架包含了一个文本图基础组件,以在文本信息和图结构之间建立联系。此外,我们还提出了一种双阶段指令调整范式,并配有一个轻量级的图文对齐映射器。该范式探索了自监督图结构信号和任务特定的图指令,以指导LLM理解复杂的图结构,并提高其在不同下游任务中的适应性。我们的框架在监督和零样本图学习任务上进行了评估,证明了优越的泛化能力和优于最先进的基线。