论文浅尝 | G-Retriever：用于文本图理解和提问的检索增强生成

最新推荐文章于 2025-04-30 13:54:25 发布

开放知识图谱

最新推荐文章于 2025-04-30 13:54:25 发布

阅读量1.1k

点赞数 6

文章标签：人工智能

本文链接：https://blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/140480895

版权

笔记整理：陈少凯，浙江大学硕士，研究方向为知识图谱、RAG

链接：https://arxiv.org/abs/2402.07630

1. 动机

尽管现有研究在多种场景下融合了大型语言模型（LLM）与图神经网络（GNN），聚焦于诸如节点、边及图分类等传统图谱任务，或是解答小规模乃至合成图上的查询问题，但我们的创新成果开辟了一条新路径。我们精心设计了一款弹性十足的问答系统，专为应对复杂且源自现实世界的大规模图数据而生。这一框架赋予用户通过一体化对话界面与图数据直接“对话”的能力，标志着图形数据分析领域一次革命性的进步。

近期学术界的努力尝试将图形结构转化为自然语言表述，比如将节点与边转换为文本序列，以便借助LLM处理各类图相关任务。然而，这种方法遭遇了显著的扩展性瓶颈。当图形包含成千上万个节点与边时，转化成文本序列将导致标记数量激增，超出了多数LLM的输入容量限制。若为适配LLM而裁剪图形文本序列，又会不可避免地牺牲信息完整性和回复质量。为解决这一挑战，G-Retriever 应运而生，其内置的RAG（Retrieval-Augmented Generation）机制能精准定位并提取图形中的关键片段，从而高效处理大规模图形数据，确保信息无损传递的同时，大幅提升了系统的响应效率和准确性。

综上所述，我们的解决方案不仅解决了图形到文本转换的可扩展性难题，更在保持信息完整度的前提下，实现了对大型图数据的有效管理和深度理解。

2. 贡献

（1）提出了一个GraphQA的benchmark（集成了三个任务的数据集：常识推理，场景图理解，知识图谱推理），用于测试模型在回答图问题的相关能力，填补了研究空白。

（2）作者提出了G-retriever方法，结合了GNN、LLM、RAG，通过软提示进行高效微调以增强图理解能力。

（2）作者提出了一种基于PCST的图检索方法，并在多个领域证明了G- retriever的效率和有效性，以及缓解了图大语言模型的幻觉问题。

3. 方法

模型的整体架构如下：

主要分为四个阶段，具体如下：

（1）索引阶段：使用预训练的语言模型生成节点和图的嵌入来初始化RAG，然后将这些嵌入存储在最近邻的数据结构中，然后输入到语言模型得到Zn，对于边也是一样的策略。

（2）检索阶段：对于检索，对查询采取与索引阶段相关的编码策略，来确保对文本信息的一致性处理。然后，识别与当前查询最相关的节点和边（即基于查询与每个节点或边的相似性，产生一组“相关的节点/边”）

（3）子图构建阶段：利用PCST算法构建一个尽可能包含多的相关节点和边的子图，同时保证图的大小是可管理的。核心目标是过滤掉与查询无关的节点和边，且保证图的大小转换成自然语言后是可以被输入到LLM中进行处理。

（4）生成阶段：对于检索到的子图，一方面利用GAT进行图编码，另一方面将检索到的子图转换为文本格式，和查询一起输出到LLM进行字编码；最后结合两边的输出，一起输入到LLM中，生成答案。

4. 实验

GraphQA Benchmark：

该Benchmark主要由三种任务的数据集（ExplaGraph数据集：常识推理任务、SceneGraphs数据集：场景图问答任务、WebQSP数据集：知识问答任务）一起标准化和处理成统一的数据格式。

不同设置在ExplaGraphs、SceneGraphs和WebQSP数据集上的性能比较：

执行检索前后平均的token数和节点数：

在SceneGraphs数据集上对幻觉进行定量比较：

消融实验（架构层面和检索模块层面）：

5. 总结

本文构建了一个新的GraphQA基准，用于现实世界的图问答，并提出了G-Retriever，一个擅长复杂和创造性查询的架构。实验结果表明，G-Retriever在多个领域的文本图任务中超过了基线，可以有效地扩展更大的图尺寸，并表现出对幻觉的抵抗力。此外，本文中的G-Retriever采用的是静态检索组件，未来研究发展中可以研究更加复杂的RAG系统，比如采用训练的检索组件。

OpenKG

OpenKG（中文开放知识图谱）旨在推动以中文为核心的知识图谱数据的开放、互联及众包，并促进知识图谱算法、工具及平台的开源开放。