技术动态 | 知识图谱引导的检索增强生成RAG_hotpotqa fullwiki 怎么用-CSDN博客

本文链接：https://blog.csdn.net/m0_59164520/article/details/146113833

摘要

检索增强生成（RAG）作为一种有前途的技术出现，用于解决大型语言模型（LLMs）生成的响应中的幻觉问题。现有的RAG研究主要集中在应用基于语义的方法检索孤立的相关片段，忽略了它们之间的内在关系。本文提出了一种新颖的知识图谱引导的检索增强生成（KG2RAG）框架，该框架利用知识图谱（KGs）提供片段之间的事实级关系，提高检索结果的多样性和连贯性。具体来说，在进行基于语义的检索以提供种子片段之后，KG2RAG采用知识图谱引导的片段扩展过程和基于知识图谱的片段组织过程，以提供相关且重要的知识，形成结构良好的段落。在HotpotQA数据集及其变体上进行的广泛实验证明了KG2RAG相对于现有的基于RAG方法的优势，无论是在响应质量还是检索质量方面。

[2502.06864] Knowledge Graph-Guided Retrieval Augmented Generation

https://arxiv.org/abs/2502.06864

核心速览

研究背景

研究问题：这篇文章要解决的问题是大型语言模型（LLMs）在生成响应时出现的幻觉问题。具体来说，LLMs可能会生成包含过时信息或缺乏领域特定知识的内容。
研究难点：该问题的研究难点包括：现有基于语义的检索方法只能检索到孤立的、同质的、冗余的信息块，无法提供这些信息块之间的内在关系，限制了LLMs在生成综合性和可靠响应方面的能力。
相关工作：现有的检索增强生成（RAG）方法主要依赖于关键词或语义检索来获取与用户查询相似的文件或信息块，但这些方法存在检索结果同质化、冗余等问题。知识图谱（KGs）作为结构化的事实知识抽象，可以有效地补充现有的基于语义的RAG方法。

研究方法

这篇论文提出了一种新的知识图谱引导的检索增强生成（KG2RAG）框架，用于解决LLMs生成响应时的幻觉问题。具体来说，

文档离线处理：首先，将所有文档按句子和段落结构分割成多个信息块（chunks），并与特定的知识图谱（KG）关联，建立信息块与KG之间的链接。
基于KG的块检索：提出了一个两阶段的检索过程，包括基于语义的检索和图引导的扩展。

基于语义的检索：使用嵌入模型计算用户查询与所有信息块的语义相似度，选择相似度最高的前k个信息块作为检索结果。
图引导的扩展：以检索到的信息块为种子块，通过KG中的重叠或连接实体进行扩展，获取扩展子图。S）算法实现。

基于KG的上下文组织：在检索结果中保留最相关的信息，并将信息块组织成与KG骨架一致的内部连贯段落。具体步骤包括：

过滤：计算扩展块与用户查询的语义相似度，构建无向加权图，并通过最大生成树（MST）过滤冗余边。
排列：为每个生成的MST提供文本表示和三元组表示，使用交叉编码器重排函数计算MST与用户查询的相关性，并按相关性排序选择前k个块。

实验设计

数据集：在HotpotQA数据集及其变体上进行实验。HotpotQA数据集包括HotpotQA-Dist和HotpotQA-Full两种设置。为了减轻对先验知识的依赖，构建了HotpotQA的变体Shuffle-HotpotQA-Dist和Shuffle-HotpotQA-Full。
评估指标：比较KG2RAG与现有RAG方法在响应质量和检索质量上的表现。响应质量使用F1分数、精确度和召回率作为指标；检索质量使用F1分数、精确度和召回率作为指标。
基线方法：比较了LLM-only、Semantic RAG、Hybrid RAG、GraphRAG、LightRAG和KG2RAG等方法。
参数配置：使用Llama3-8B作为LLMs，mxbai-embed-large作为嵌入模型，bge-reranker-large作为交叉编码器重排器。k值设为10，除非另有说明。

结果与分析

响应质量：KG2RAG在HotpotQA-Full和Shuffle-HotpotQA-Full设置上均优于基线方法，特别是在Fullwiki设置中，KG2RAG至少提高了8%的F1分数。
检索质量：KG2RAG在HotpotQA-Dist和Shuffle-HotpotQA-Dist设置上实现了较高的检索精度和召回率的平衡，特别是在Distactor设置中，KG2RAG的精确度提高了超过7.9%。
消融研究：通过消融实验验证了KG引导的扩展和基于KG的上下文组织模块的贡献。结果表明，仅使用KG引导的扩展会显著降低检索质量，而仅使用基于KG的上下文组织模块会显著提高检索精度但无法生成更好的响应。

总体结论

本文提出的KG2RAG框架通过整合知识图谱，增强了检索增强生成（RAG）的性能。KG2RAG通过建立信息块与特定KG之间的链接，提供了事实级的关系，并进行了基于KG的块扩展和基于KG的上下文组织。实验结果表明，KG2RAG在响应质量和检索质量上均优于现有方法。未来的工作将把KG2RAG开发成一个易于集成到其他方法中的插件工具，以促进KG在RAG中的应用和发展。

论文评价

优点与创新

知识图谱引导的检索增强生成框架：提出了KG²RAG框架，利用知识图谱（KGs）提供事实级关系，提高了检索结果的多样性和连贯性。
语义检索与图引导扩展结合：在语义检索的基础上，通过图引导扩展过程，获取包含重叠或相关实体和三元组的子图，进一步丰富检索结果。
基于知识图谱的上下文组织：设计了基于知识图谱的上下文组织模块，作为过滤器和排列器，保留最相关的信息并形成内部一致、语义连贯的段落。
实验验证：在HotpotQA数据集及其变体上进行了广泛的实验，证明了KG²RAG在响应质量和检索质量上的优势。
模块化设计：KG²RAG的不同模块（如KG引导扩展和基于知识图谱的上下文组织）可以独立开发和集成，增强了框架的灵活性和可扩展性。

不足与反思

局限性：KG²RAG仅关注检索优化部分，未优化其他模块。未来将开发成即插即用的工具，与其他方法轻松集成，促进研究社区的发展。

关键问题及回答

问题1：KG2RAG框架中的文档离线处理是如何进行的？

分割文档：将所有文档按句子和段落结构分割成多个块。
预处理：对这些块进行预处理，如添加相关上下文、提取元信息（如标题、摘要）和生成对应的问题。
关联KG：将这些预处理后的块与特定的知识图谱（KG）关联，建立块与KG之间的链接，以捕捉块之间的事实级关系。

这些步骤确保了块与KG之间的紧密联系，从而在后续的检索和生成过程中能够有效地利用这些关系。

问题2：KG2RAG框架中的KG增强块检索是如何实现的？

KG2RAG提出了一个两阶段的检索过程：

基于语义的检索：使用嵌入模型计算用户查询与所有块之间的语义相似度，选择相似度最高的k个块作为检索到的块。
图引导的扩展：将这些检索到的块作为种子块，通过图引导的扩展过程提取相关子图，并包含重叠或相关的实体和三元组。具体来说，首先获取种子块的相关子图，然后遍历子图的m跳邻域，扩展子图以包含更多的相关实体和三元组。

这种图引导的扩展方法有助于防止检索到的块之间的冗余和过度同质化，从而提高检索的多样性和全面性。

问题3：KG2RAG框架中的基于KG的上下文组织模块是如何工作的？

基于KG的上下文组织模块在KG增强的块检索之后引入，主要起到两个作用：

过滤：计算扩展块与用户查询之间的语义相似度，将扩展子图转换为无向加权图，并通过计算最大生成树（MST）来保留最具相关信息的内容，消除冗余边。
组织：为每个生成的MST提供文本表示和三元组表示。文本表示通过深度优先搜索（DFS）算法将相连的块连接成一个连贯的段落；三元组表示则直接连接MST中的所有边。然后，使用交叉编码器重排函数计算MST与用户查询的相关性，并按相关性排序，选择前k个块作为最终输入到LLMs中进行响应生成。

这种上下文组织方法确保了检索到的块在语义上是连贯的，并且与查询高度相关，从而提高了生成响应的质量。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述