GNN-RAG：用于大型语言模型推理的图神经网络检索-CSDN博客

本文链接：https://blog.csdn.net/m0_70486148/article/details/147324136

Year: 2024

Address: https://arxiv.org/abs/2405.20139

#Introduction大语言模型凭借其卓越的自然语言理解能力，已成为众多NLP任务的标杆技术。其核心能力源于对海量文本数据的预训练，从而习得通用的人类知识。然而，由于预训练成本高昂且耗时，LLM难以快速适应新知识或领域专有知识，且易产生“幻觉”。知识图谱以结构化形式存储信息，支持动态更新。KG通过图结构捕捉实体间的复杂交互（如多跳关系），广泛应用于知识密集型任务（如问答系统）。RAG通过向LLM输入上下文注入来自知识图谱（KG）的实时准确信息，缓解LLM的幻觉问题。然而，KG通常包含数百万条复杂图结构事实，如何高效检索相关事实是核心挑战：有效图处理需求：多跳问题需遍历复杂路径。噪声干扰风险：检索不相关事实会误导LLM生成错误答案。而现有基于LLM的KG检索方法在多跳KGQA中表现不佳，原因包括：LLM难以直接解析KG中的多跳路径和拓扑关系以及依赖超大模型补偿缺失，其中部分方法需调用GPT-4等超大模型补全KG缺失信息，导致高昂成本与延迟。本文提出了一种改进知识图谱问答中检索增强生成（RAG）的新方法GNN-RAG，其核心是利用图神经网络（GNN）处理知识图谱（KG）中的复杂图信息。尽管GNN无法像大语言模型（LLM）一样理解自然语言，但GNN-RAG可以利用其图处理能力进行检索：GNN推理阶段：在密集KG子图上进行多跳推理，检索与问题相关的候选答案。路径提取与文本化：提取KG中连接问题实体与答案的最短路径，将其转换为自然语言输入LLM。检索增强（RA）：结合LLM的语义理解能力生成最终答案。Method本文提出了一种新颖的KGQA方法——GNN-RAG，其核心是将大语言模型（LLM）的自然语言理解能力与图神经网络（GNN）的图结构推理能力相结合，以检索增强生成（RAG）的方式工作。总体框架如下图所示：具体而言，首先GNN推理阶段从知识图谱（KG）中提取与问题相关的密集子图（Dense Subgraph），GNN在子图上进行多跳推理，生成候选答案（例如“Jamaica的官方语言是English”）。其次路径提取与文本化，提取KG中连接问题实体与候选答案的最短路径（如 Jamaica→official_language→English），将这些路径转换为自然语言描述（例如“牙买加的官方语言是英语”）。最后LLM生成阶段将文本化路径输入LLM，结合检索增强（RAG）生成最终答案。框架分工：GNN角色：作为子图推理器，精准提取图结构信息（如多跳关系链）。LLM角色：利用语言理解能力整合路径信息，生成自然语言答案。GNN为了通过GNN-RAG检索高质量的推理路径，本文利用了最先进的图神经网络来进行知识图谱问答。作者倾向于使用GNNs而不是其他KGQA方法，因为它们能够处理复杂的图交互，并且能够回答多跳问题。由于GNNs在架构上能够探索多样化的推理路径，从而实现高答案召回率，因此它们是检索任务的理想选择。当GNN推理完成时（通过公式1进行L次GNN更新），子图中的所有节点都会根据其最终的GNN表示被评分，以判断它们是答案还是非答案，并通过softmax操作进行归一化。 GNN的参数通过使用训练问题-答案对进行节点分类（答案与非答案）来优化。在推理过程中，具有最高概率分数的节点（例如，超过某个概率阈值）将被返回为候选答案，并且还会返回连接问题实体与候选答案的最短路径（推理路径）。检索到的推理路径将作为输入用于基于LLM的RAG。不同的图神经网络可能会为RAG获取不同的推理路径。GNN推理依赖于问题-关系匹配操作 ω(q,r)。ω(q,r) 的一个常见实现是 ϕ(q(k)⊙r) ，即对问题表示和关系表示进行元素级乘法(⊙)后，通过神经网络φ处理，其中函数 ϕ 是一个神经网络，⊙ 是元素级乘法。问题表示 q(k) 和知识图谱（KG）关系表示 r 通过一个共享的预训练语言模型（LM）进行编码，如下所示：总的来说，选择合适的预训练语言模型和问题-关系匹配操作对于提高知识图谱问答性能的重要性。通过这种方法，可以更有效地利用知识图谱中的信息来增强大型语言模型的推理能力。LLM在通过GNN-RAG获取推理路径后，作者将这些路径转化为自然语言，并将其作为输入提供给下游的大型语言模型（LLM），例如ChatGPT或LLaMA。然而，LLMs对输入的提示模板以及图信息转化为自然语言的方式非常敏感。为了解决这个问题，本文选择遵循RAG提示调优的方法，适用于那些具有开放权重且可以训练的LLMs。基于训练问题-答案对，对一个LLaMA2-Chat-7B模型进行了微调，使其能够根据提示生成正确的答案列表，提示如下：“根据推理路径，请回答给定的问题。\n 推理路径：{推理路径} \n 问题：{问题}”。推理路径被转化为如下形式：“{问题实体} → {关系} → {实体} → … → {关系} → {答案实体} \n”。在训练期间，推理路径是从问题实体到答案实体的最短路径。在推理阶段，推理路径由GNN-RAG获取。Retrieval Analysis: Why GNNs & Their LimitationsGNN利用图结构来检索包含多跳信息的知识图谱（KG）的相关部分。本文训练了两个不同的GNN，一个深度较大的（L=3）和一个深度较浅的（L=1），并测量了它们的检索能力，主要报告了“答案覆盖率”指标，该指标评估检索器是否能够为RAG检索到至少一个正确答案。其中“答案覆盖率”并不衡量下游KGQA的性能，而是评估检索器是否检索到相关的KG信息。“输入标记数”表示检索到的KG路径的输入标记的中位数。上表所示展示了与基于LLM的检索器相比，GNN在WebQSP数据集中单跳和多跳问题的检索结果。结果表明，深度较大的GNN（L=3）能够处理复杂的图结构，并比LLM和浅层GNN更有效地（%Ans. Cov.）和高效地（#Input Tok.）检索有用的多跳信息。另一方面，GNN的局限性在于简单（1跳）问题，其中准确的问题-关系匹配比深度图搜索更重要。在这些情况下，由于LLM的自然语言理解能力，LLM检索器在选择正确的KG信息方面表现更好。**Retrieval Augmentation (RA)**检索增强（Retrieval Augmentation, RA）通过结合不同方法检索到的知识图谱（KG）信息来增加多样性和答案召回率。本文将GNN检索器与基于LLM的检索器相结合，以分别发挥它们在多跳和单跳问题上的优势。具体来说，作者使用了RoG检索方法。在推理过程中，我们取两种检索器检索到的推理路径的并集。基于LLM的检索的一个缺点是，它需要多次生成（束搜索解码）来检索不同的路径，这以效率为代价换取了有效性。一个更经济的替代方案是通过结合不同GNN的输出来进行RA，这些GNN在公式3中配备了不同的语言模型（LMs）。作者将GNN-RAG+Ensemble方法将两个不同的GNN（GNN+SBERT和GNN+LMSR）检索到的路径的并集作为RAG的输入。Experimental Setup****KGQA Datasets本文在两个广泛使用的知识图谱问答基准测试中进行了实验：WebQSP和 CWQ。WebQSP包含了4,737个自然语言问题，这些问题可以通过Freebase知识图谱的一个子集来回答。这些问题需要在这个知识图谱内进行最多两跳（2-hop）的推理。CWQ包含了总共34,699个复杂的问题，这些问题需要在知识图谱上进行最多四跳（4-hops）的推理。Implementation & Evaluation对于子图检索，本文使用链接的实体和PageRank算法来提取密集的图信息。作者采用ReaRev，这是一个针对深度知识图谱推理的图神经网络，用于GNN-RAG。默认实现是将ReaRev与SBERT结合作为公式3中的语言模型（LM）。此外，还将ReaRev与LMSR结合使用，LMSR是通过遵循SR的实现获得的。采用RoG进行基于RAG的提示调优。在评估中，采用了Hit、Hits@1（H@1）和F1指标。Hit衡量生成的响应中是否包含任何正确答案，这通常在评估大型语言模型（LLMs）时使用。H@1是顶部/第一个预测答案的准确性。F1考虑了生成答案的召回率（找到的正确答案数量）和精确度（找到的错误答案数量）。Competing Methods作者比较了KGQA的SOTA GNN和LLM方法。本文还包括早期的基于嵌入的方法和零样本/少样本 LLM。此外不使用语义解析方法，因为它们使用额外的训练数据 (SPARQL 注释)，这在实践中很难获得。此外，本文还将 GNN-RAG 与基于 LLM 的检索方法在效率和有效性方面进行了比较。Results****Main Results如下表所示展示了不同KGQA方法的性能结果。GNN-RAG 是总体上表现最好的方法，在几乎所有指标中在两个 KGQA 基准上实现了最先进的结果。
结果表明，为 LLM 配备基于 GNN 的检索可以显着提高其推理能力。具体来说，GNN-RAG+RA 在 Hit 上比 RoG 高 5.0-6.1%，而在 ToG+GPT-4 性能上优于或匹配，使用只有 7B 参数和更少 LLM 调用的 LLM——本文估计 ToG+GPT-4 的总体成本高于 800 美元，而 GNN-RAG 可以部署在单个 24GB GPU 上。GNN-RAG+RA 在 Hit 上比 ToG+ChatGPT 高出 14.5% 分，在 Hits@1 上表现最好的 GNN 高出 5.3-9.5% 分，在 F1 时高出 0.7-10.7% 分。Multi-Hop & Multi-Entity KGQA表3则比较了多跳问题的性能结果，其中答案距离问题实体多一跳，以及具有多个问题实体的多实体问题。GNN-RAG 利用 GNN 处理复杂的图信息，在 WebQSP 上的 F1 上比 RoG（基于 LM 的检索）高出 6.5-17.2%，在 CWQ 上的 F1 上比 RoG（基于 LM 的检索）高出 8.5-8.9%。此外，GNN-RAG+RA 通过F1高达6.5%的点。结果表明，当深度图搜索对成功的KGQA很重要时，GNN-RAG是一种有效的检索方法。Retrieval Augmentation表4比较了 GNN-RAG 的不同检索增强。主要指标是 F1，而其他指标评估方法从 KG 中检索相关信息的程度。基于结果，作者得出以下结论：基于 GNN 的检索比基于 LLM 的检索更高效（#LLM 调用、#Input Tokens）和有效的（F1），尤其是对于复杂问题（CWQ）。检索增强在将 GNN 诱导的推理路径与 LLM 诱导的推理路径相结合时效果最好（F1），因为它们获取不重叠的 KG 信息，从而提高了 KGQA 的检索。增加所有检索方法并不一定会导致性能的提高(F1)，因为长输入(#Input Tokens)可能会混淆LLM。虽然这两个gnn在KGQA (F1)上的表现不同，但它们都改进了llm的RAG。Retrieval Effect on LLMs表 5 显示了使用 GNN-RAG 或基于 LLM 的检索器（RoG 和 ToG）的各种 LLM 的性能结果。 GNN-RAG (+RA) 是实现 RAG 最大改进的检索方法。例如，GNN-RAG+RA 在 RoG 和 ToG 的 Hit 上比 ChatGPT 提高了 6.5% 分。此外，GNN-RAG大大提高了较弱llm的KGQA性能，如Alpaca-7B和Flan-T5-xl。RoG 的改进在 Hit 处高达 13.2% 点，而 GNN-RAG 使用轻量级 7B LLAMA2 模型优于 LLAMA2-Chat-70B+ToG。结果表明，GNN-RAG 可以与其他 LLM 集成以改进他们的 KGQA 推理而无需重新训练。Case Studies on Faithfulness图 4 说明了来自 CWQ 数据集的两个案例研究，展示了 GNN-RAG 如何提高 LLM 的忠实度，即 LLM 遵循问题的指令的程度并使用来自 KG 的正确信息。在这两种情况下，GNN-RAG 检索多跳信息，这对于正确回答问题是必要的。在第一种情况下，GNN-RAG检索两个关键事实<Gilfoyle→character_that_have_life_here→多伦多>和<Toronto→省。capital→安大略>回答问题，这与仅获取第一个事实的KG-RAG基线(RoG)不同。在第二种情况下，KG-RAG 基线错误地检索有关问题所指的<Erin Brockovich → person> 的信息，而不是<Erin Brockovich → movie_character>。GNN-RAG 使用 GNN 来探索和实体在 KG 中是相关的，从而产生检索有关<Erin Brockovich → movie_character> 的事实。检索到的事实包括重要信息<films_with_this_crew_job → Consultant>。图 5 说明了来自 WebQSP 数据集的一个案例研究，展示了 RA如何改进 GNN-RAG。最初，GNN 并没有检索有用的信息，因为它限制了理解自然语言，即<jurisdiction.body>通常“做法律”。GNN-RAG+RA 检索正确的信息，帮助 LLM 正确回答问题。Conclusion本文介绍了 GNN-RAG，这是一种将基于 RAG 的 LLM 和 GNN 推理能力相结合的新方法。作者的贡献如下：(1)框架:GNN-RAG将GNN重新用于KGQA检索，以增强LLM的推理能力。此外，本文的检索分析指导了检索增强技术的设计，以提高 GNN-RAG 性能。(2)有效性和忠实性:GNN-RAG在两个广泛使用的KGQA基准(WebQSP和CWQ)上实现了最先进的性能。此外，GNN-RAG 被证明可以检索多跳信息，这对于对复杂问题的忠实 LLM 推理是必要的。(3)效率：GNN-RAG 在 KGQA 性能上改进了 vanilla LLM，而不会像 KGQA 的现有 RAG 系统那样产生额外的 LLM 调用。此外，GNN-RAG 使用 7B 调整的 LLM 优于或匹配 GPT-4 性能。