GRAG: Graph Retrieval-Augmented Generation
摘要
简单检索增强生成 (Naive RAG) 聚焦于单一文档的检索,因此在处理网络化文档时表现不足,例如引用图、社交媒体和知识图谱等应用中非常常见的场景。为了解决这一限制,我们提出了图检索增强生成 (Graph Retrieval-Augmented Generation, GRAG),它针对检索文本子图和将文本与拓扑信息联合整合到大型语言模型(LLMs)中以增强生成的基本挑战。
为了实现高效的文本子图检索,我们提出了一种新颖的分而治之策略,能够以线性时间检索出最优子图结构。为了实现图上下文感知生成,GRAG通过两种互补视角——文本视角和图视角——将文本图整合到LLMs中,使其能够更有效地理解和利用图上下文。
引言
大型语言模型(LLMs) 在多种推理任务(包括基于图数据的任务)中展现了卓越能力 (Hu et al., 2023b; Chen et al., 2024; Fatemi et al., 2023)。然而,由于训练数据的局限性及缺乏实时知识,LLMs在事实性错误上仍然存在问题 (Mallen et al., 2023; Min et al., 2023)。检索增强生成(RAG) 方法通过将外部数据检索整合到生成过程中,帮助LLMs获取相关信息以生成更精准的回答,从而减少事实性错误 (Tang and Yang, 2024)。
然而,传统的RAG方法仅聚焦于单个文档,通过文本相似性检索相关内容。然而,现实世界中的文档(如社交媒体帖子、科研论文、知识条目和产品评论)通常不是孤立的,而是以文本图的形式网络化 (He et al., 2023; Jin et al., 2023; Li et al., 2023)。这种网络信息在检索相关文档和引导LLMs生成文本时至关重要 (Yang et al., 2024; Tang and Yang, 2024)。例如,科研论文形成引用图,当一个太阳物理学家想了解太阳耀斑预测的最新技术时,引用关系需要被考虑,以便全面检索相关研究并理解技术演进(如图1所示)。类似地,社交媒体交互、知识图谱中