一篇全新知识导向 RAG 全栈技术综述

最新推荐文章于 2025-04-28 22:01:42 发布

小马不会过河

最新推荐文章于 2025-04-28 22:01:42 发布

阅读量766

点赞数 18

文章标签：语言模型人工智能大数据架构 transformer

本文链接：https://blog.csdn.net/m0_59163425/article/details/147551956

版权

近期，中科大出品了一篇关于知识导向检索增强型生成（Retrieval-Augmented Generation, RAG）的综述，全面介绍了RAG的基本原理、关键组件、特性、挑战以及在不同领域的应用，并探讨了未来发展的7种RAG技术形态。

RAG研究组织框架。时间线从2020年延续至当下，将RAG相关研究分为三大领域：基础（包括RAG学习和RAG框架）、**高级以及评估。**时间线上还标记了语言模型领域的重要里程碑（如GPT-3、ChatGPT、GPT-4）。

不同RAG综述的比较**。LLM**：是否在大型语言模型的背景下讨论RAG；多模态：是否涵盖多模态RAG；图结构：是否讨论RAG中的图结构化信息；高级：对高级RAG技术的覆盖范围；评估：是否涉及评估方法；知识：是否采用以知识为中心的视角。

一、RAG基本原理

问题表述：将输入序列转换为输出序列，通过检索函数从外部知识库中提取相关信息，增强生成过程。
检索：从外部知识源中获取有用知识，包括文本、图像、音频等多种模态，以及结构化和非结构化数据。
生成：结合内部知识和检索到的外部知识，生成连贯、相关的输出。
知识整合：将内部知识与检索到的外部知识进行整合，是RAG的核心环节。

三、RAG的关键特性与挑战

探讨了检索增强型生成（RAG）模型的核心要素和目标，详细分析了用户意图理解、知识检索、知识整合、答案生成和评估指标等关键环节。这些要素共同构成了RAG系统的框架，并揭示了其在自然语言处理任务中的重要性和面临的挑战。

精准的用户意图理解

准确理解用户意图是生成相关响应的关键，但用户查询的模糊性和多样性增加了理解难度，需借助文本建模、查询重写等策略提升意图理解的准确性。

准确的知识检索

知识检索为生成过程提供相关上下文，直接影响输出质量，但处理大规模数据集、平衡精确度与召回率以及应对动态数据源是其主要挑战，需优化检索算法并利用相关性反馈来解决。

无缝的知识整合

将外部知识与内部知识无缝整合是生成连贯输出的重要环节，面临处理不同数据类型、解决知识冲突和确保知识时效性的挑战，可通过多层整合策略灵活处理不同来源的知识。

四、RAG基本方法

用户意图理解：通过查询分解和查询重写等技术，提高查询质量。
知识源与解析：RAG可以利用结构化、半结构化、非结构化和多模态知识。
知识嵌入：将知识分割成有意义的单元，并转换为向量嵌入，便于检索。
知识索引：为大规模数据集创建结构化索引，提高检索效率。
知识检索：根据输入查询检索相关知识，包括稀疏检索、密集检索和混合检索策略。
知识整合：通过输入层、中间层和输出层整合检索到的知识。
答案生成：通过去噪和推理生成准确、连贯的输出。
知识引用：为生成的内容提供引用，确保透明度和可信度。

RAG采用的答案生成策略，包括去噪和推理。

五、RAG的高级方法

RAG训练：包括静态训练、单向引导训练和协作训练，优化检索和生成组件的协同工作。
多模态RAG：整合多种模态数据，如图像、音频和视频，以增强输出。
记忆增强RAG：引入显式记忆机制，处理长文档理解和个性化知识。
Agentic RAG：引入自主Agent进行动态优化，处理复杂任务。

六、RAG未来发展

GraphRAG：结合知识图谱增强RAG的推理能力。
多模态RAG：整合多种模态数据，提升理解能力。
个性化RAG：根据用户偏好和历史行为提供个性化响应。
Agentic RAG：通过自主代理进行动态优化，处理复杂任务。
RAG与生成模型的结合：探索与扩散模型等其他生成模型的结合。
EdgeRAG：在边缘计算环境中部署RAG，降低延迟并保护隐私。
可信RAG：提高RAG系统的可解释性和可信度。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述