图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

Python老猿

于 2024-08-26 15:15:40 发布

阅读量268

点赞数 2

文章标签： ai大模型 prompt 人工智能知识图谱产品经理大模型 LLM

本文链接：https://blog.csdn.net/DEVELOPERAA/article/details/141564883

版权

在这里插入图片描述

近年来，检索增强生成（RAG）在应对大语言模型（LLMs）挑战方面取得了显著成功，而无需重新训练模型。通过引用外部知识库，RAG能够改进LLM的输出，有效缓解诸如“幻觉”、缺乏领域特定知识和信息过时等问题。然而，数据库中不同实体之间复杂的关系结构对RAG系统提出了挑战。对此，GraphRAG利用实体之间的结构信息，使得检索更加精确和全面，能够捕捉到关系性知识，并促进生成更准确且具有上下文意识的响应。鉴于GraphRAG的创新性和潜力，对当前技术的系统性回顾显得尤为重要。本文首次提供了对GraphRAG方法的全面综述。我们形式化了GraphRAG的工作流程，涵盖了基于图的索引、图引导的检索以及图增强生成。接着，我们概述了每个阶段的核心技术和训练方法。此外，我们还探讨了GraphRAG在下游任务、应用领域、评估方法和工业案例中的应用。最后，我们展望了未来的研究方向，以激发进一步的探索并推动该领域的进展。

https://arxiv.org/abs/2408.08921

在这里插入图片描述

引言
大型语言模型（LLM）如GPT-4 [116]、Qwen2 [170]和LLaMA [24]的开发引发了人工智能领域的革命，根本性地改变了自然语言处理的格局。这些模型基于Transformer [149]架构构建，并在多样且广泛的数据集上进行训练，展现了前所未有的理解、解释和生成人类语言的能力。这些进展的影响深远，覆盖了包括医疗 [93, 154, 188]、金融 [84, 114]和教育 [38, 157]等在内的多个领域，促进了人与机器之间更细致和高效的互动。尽管这些模型在语言理解和文本生成方面展现了卓越的能力，但由于缺乏领域特定知识、实时更新信息和专有知识（这些信息不在LLM的预训练语料中），LLM可能会表现出一定的局限性。这些缺口可能导致“幻觉”现象 [53]，即模型生成不准确甚至虚构的信息。因此，补充LLM外部知识以缓解这一问题显得尤为重要。检索增强生成（RAG） [27, 37, 51, 54, 165, 180, 187]作为一项重要的进化，通过在生成过程中集成检索组件，旨在提升生成内容的质量和相关性。RAG的本质在于其动态查询大型文本语料库，以将相关的事实性知识整合到生成的语言模型响应中。这种整合不仅丰富了响应的上下文深度，还确保了更高程度的事实准确性和特异性。由于其出色的性能和广泛的应用，RAG已成为该领域的一个重要研究热点。

尽管RAG取得了令人印象深刻的成果，并在多个领域得到了广泛应用，但在实际场景中仍面临一些局限：(1) 忽略关系：在实践中，文本内容并非孤立存在，而是相互关联的。传统的RAG未能捕捉到无法通过语义相似性单独表示的重要结构化关系知识。例如，在一个通过引用关系链接的文献网络中，传统的RAG方法只关注基于查询找到相关文献，但忽略了文献之间的重要引用关系。(2) 冗余信息：RAG在作为提示时通常以文本片段的形式重新叙述内容。这使得上下文变得过于冗长，导致“中间迷失”困境 [94]。(3) 缺乏全局信息：RAG只能检索到文档的一个子集，难以全面掌握全局信息，因此在处理诸如查询聚焦摘要（QFS）之类的任务时表现不佳。

图检索增强生成（GraphRAG）[25, 50, 108]作为一种创新解决方案，旨在应对这些挑战。与传统的RAG不同，GraphRAG从预构建的图数据库中检索与给定查询相关的图元素，如图1所示。这些元素可能包括节点、三元组、路径或子图，并用于生成响应。GraphRAG考虑了文本之间的相互联系，使得关系信息的检索更加准确和全面。此外，图数据（如知识图谱）提供了对文本数据的抽象和总结，从而显著缩短了输入文本的长度，缓解了冗长问题。通过检索子图或图社区，我们可以获取全面的信息，利用图结构中的广泛上下文和相互联系来有效应对QFS挑战。

本文首次提供了对GraphRAG的系统综述。具体而言，我们首先介绍了GraphRAG的工作流程以及支撑该领域的基础背景知识。接着，我们根据GraphRAG流程的主要阶段分类文献：基于图的索引（G-Indexing）、图引导的检索（G-Retrieval）和图增强生成（G-Generation），分别在第5、6和7节详细介绍每个阶段的核心技术和训练方法。此外，我们还探讨了GraphRAG的下游任务、应用领域、评估方法和工业案例。本次探索阐明了GraphRAG在实际应用中的使用情况，并展示了其在各个领域的多样性和适应性。最后，我们认识到GraphRAG的研究仍处于早期阶段，探讨了未来的潜在研究方向。此预测性讨论旨在为未来的研究铺平道路，激发新的研究思路，并推动该领域的进展，最终推动GraphRAG走向更加成熟和创新的方向。

我们的贡献可总结如下：

我们提供了现有最新GraphRAG方法的全面系统回顾。我们提出了GraphRAG的正式定义，概述了其通用工作流程，包括G-Indexing、G-Retrieval和G-Generation。
我们讨论了现有GraphRAG系统的核心技术，包括G-Indexing、G-Retrieval和G-Generation。对于每个组件，我们分析了模型选择、方法设计和增强策略的广泛范围。此外，我们对这些模块中使用的不同训练方法进行了对比。
我们详细描述了GraphRAG的下游任务、基准、应用领域、评估指标、当前挑战和未来研究方向，讨论了该领域的进展和前景。此外，我们还汇编了现有工业GraphRAG系统的清单，提供了学术研究向现实世界工业解决方案转化的见解。

组织结构。本文的其余部分安排如下：第2节比较了相关技术，第3节概述了GraphRAG的一般流程。第5至7节对GraphRAG三个阶段（G-Indexing、G-Retrieval和G-Generation）相关的技术进行了分类。第8节介绍了检索器和生成器的训练策略。第9节总结了GraphRAG的下游任务、对应的基准、应用领域、评估指标和工业GraphRAG系统。第10节展望了未来的研究方向。最后，第11节总结了本次综述的内容。

在这里插入图片描述

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。
内容：
- L3.1 Agent模型框架
- L3.2 MetaGPT
- L3.3 ChatGLM
- L3.4 LLAMA
- L3.5 其他大模型介绍

阶段4：AI大模型私有化部署

目标：掌握多种AI大模型的私有化部署，包括多模态和特定领域模型。
内容：
- L4.1 模型私有化部署概述
- L4.2 模型私有化部署的关键技术
- L4.3 模型私有化部署的实施步骤
- L4.4 模型私有化部署的应用场景

这份 LLM大模型资料 包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

Python老猿

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

近年来，检索增强生成（RAG）在应对大语言模型（LLMs）挑战方面取得了显著成功，而无需重新训练模型。通过引用外部知识库，RAG能够改进LLM的输出，有效缓解诸如“幻觉”、缺乏领域特定知识和信息过时等问题。
复制链接

扫一扫