RAG年终总结之12篇综述:从2022到2024看架构、策略、评测及演化

今天,我们继续来看看RAG。

参考了2022-2024三年来的12个RAG综述,共12个综述文章,设计评测、检索策略、架构、多模态、演化等多个环节,这个对于全面的了解RAG很有意义。

供各位参考,多思考,多总结,多实践;

1、2022.02.02近三年首个综述

《A Survey on Retrieval-Augmented Text Generation》,https://arxiv.org/abs/2202.01110

首先突出了检索增强生成的通用范式,然后根据不同的任务,包括对话响应生成、机器翻译和其他生成任务,回顾了值得关注的方案。

2、2023.03.20多模态RAG综述

《Retrieving Multimodal Information for Augmented Generation: A Survey》,https://arxiv.org/abs/2303.10868

探讨了通过检索多模态知识来增强生成模型的方法,特别是如何利用图像、代码、结构化知识、音频和视频等多模态信息来提升大型语言模型(LLMs)的生成能力。

例如,对于图像模态:视觉问答(VQA)使用图像检索来改进VQA任务的生成质量;图像标注通过检索相关图像内容来生成多风格标注。视觉对话检索视觉信息以生成相关的对话响应;文本生成,图像检索可以扩展文本生成的上下文,提高生成质量。

对于代码模态,文本到代码生成利用相关代码片段和文档来增强代码生成模型。代码到文本生成通过检索相关代码差异和提交消息来改进代码摘要。代码补全结合词汇和语义信息的混合技术来提高代码自动补全的性能。自动程序修复(APR)通过检索相关错误模式和修复模板来改进APR模型。

对于结构化知识模态,问答(QA)使用知识图谱和表格等结构化知识来增强QA系统的性能。文本生成检索外部知识以提高文本生成的真实性和可解释性。知识推理通过选择相关知识来进行更接地气和可解释的推理任务。知识驱动的对话生成基于相关表格和知识库生成对话。

对于音频模态,文本-音频数据增强上,检索音频和文本提示以缓解数据稀缺问题。音乐标注通过检索音频特征来生成音乐歌词。音乐生成使用深度神经哈希检索音乐构建块来生成音乐。

对于视频模态,视频对话检索视频片段以生成相关的对话响应。视频标注使用注意力层自动选择最显著的视觉或语义特征来增强视频标注生成。LLM增强将视频内容翻译成属性并提示LLM以增强其泛化能力。

3、2023.11.18首个全面RAG综述

《Retrieval-Augmented Generation for Large Language Models: A Survey》,https://arxiv.org/abs/2312.10997,全面回顾了RAG的发展历程,提供了对RAG系统各个关键组件的深入理解,并介绍了最新的评估框架和基准。

将RAG分为朴素RAG(最初的RAG方法,直接从外部数据库中检索信息并简单地将其集成到生成过程中)、高级RAG(引入了更复杂的检索和生成策略,例如基于上下文的检索和多模态集成)、模块化RAG(将RAG系统分解为独立的检索、生成和增强模块,以提高系统的灵活性和可扩展性)。

并且,介绍了最新的评估框架和基准,用于评估RAG系统的性能。

4、2024.02.29面向AIGC生成做全面综述

《Retrieval-Augmented Generation for AI-Generated Content: A Survey》,https://arxiv.org/abs/2402.19473,全面回顾了检索增强生成(RAG)在人工智能生成内容(AIGC)中的应用。几个看点,

一个是RAG的基础架构,RAG系统包括两个核心模块:检索器和生成器。检索器从数据存储中搜索相关信息,生成器利用这些信息生成所需内容。

不同类型的生成器,包括Transformer模型、LSTM、扩散模型和GAN等;

不同类型的检索器,包括稀疏检索器、密集检索器和其他方法(如编辑距离、AST、知识图谱等)。

一个是RAG的方法论,包括:基于查询的RAG:将检索结果直接作为生成器的输入,广泛应用于文本、代码、图像等领域;基于潜在表示的RAG:将检索到的对象作为潜在表示嵌入生成模型,提升模型的理解能力和生成质量;基于logit的RAG:在解码过程中通过logits整合检索信息,适用于序列生成任务;推测性RAG:使用检索替代部分生成,节省资源并加速响应速度。

一个是RAG的增强方法,包括输入增强:包括查询转换和数据增强,提升检索结果的准确性;检索器增强:通过递归检索、块优化、检索器微调等方法提高检索效果;生成器增强:通过提示工程、解码调优和生成器微调等方法提升生成质量;结果增强:通过输出重写等方法改进生成结果;RAGpipeline增强:通过自适应检索和迭代RAG等方法优化整个RAG过程。

一个是RAG在AIGC中的应用,包括文本领域、代码领域、知识领域、视频领域、图像领域、视频领域、3D领域、科学领域。

5、2024.04.17综述面向检索的核心技术

《A Survey on Retrieval-Augmented Text Generation for Large Language Models》,https://arxiv.org/abs/2404.10981,主要回顾当前RAG在各个阶段的核心技术。

例如,对于检索,分成了基本检索策略:线性工作流程,适用于简单任务;迭代检索策略:多次检索,逐步优化结果;递归检索策略:处理层次化或分层信息,适用于复杂查询;条件检索策略:根据特定条件或规则进行检索;以及自适应检索策略:动态调整检索策略以优化结果。

6、2024.04.30综述检索增强语言模型(RALMs)

《RAG and RAU: A Survey on Retrieval-Augmented Language Model in Natural Language Processing》,https://arxiv.org/abs/2404.19543,全面综述检索增强语言模型(RALMs),包括检索增强生成(RAG)和检索增强理解(RAU),并探讨其在自然语言处理(NLP)中的应用和发展,不仅关注RAG,还涵盖了RAU,详细描述了检索器和语言模型的不同交互模式,并提供了RALMs的工作时间表和应用总结。

其中关于RALMs的定义不错。

RALM包括检索器、语言模型和增强模块,检索器负责获取相关信息,语言模型进行生成或理解,增强模块则优化整个过程。

7、2024.05.10综述RAG与LLM的结合范式

《A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models》,https://arxiv.org/abs/2405.06211,从架构、训练策略和应用三个方面系统地回顾现有研究。

有几个看点:

一个是RAG各个环节优化的关注度分布。

一个是检索集成方面,包括输入层集成:将检索到的信息与原始输入结合;输出层集成:在生成结果中融合检索信息;中间层集成:通过Transformer模块将检索信息融入生成模型。

一个是RA-LLMs的训练策略,包括无训练方法:直接在推理时利用检索机制,无需额外训练;独立训练:分别训练检索器和LLM,不进行交互;顺序训练:先训练一个模块并固定,再训练另一个模块;联合训练:同时端到端训练检索器和生成器。

一个是在下游任务上的一些代表工作:

8、2024.05.13综述RAG的评估

《Evaluation of Retrieval-Augmented Generation: A Survey》,https://arxiv.org/abs/2405.07437,探讨了检索增强生成(RAG)系统的评估方法,并提出了一个统一的评估过程(Auepora)。例如,针对评估,能够涉及到的一些指标,包括:检索指标:包括精度、召回率、平均倒数排名(MRR)和平均精度均值(MAP)等;生成指标:包括BLEU、ROUGE和BERTScore等,这些指标用于评估生成文本的质量;额外要求的指标:如延迟、多样性和噪声鲁棒性等,确保RAG系统在实际应用中的实用性。

以及常用于RAG评估的数据集:

9、2024.07.18综述RAG用于NLP自然语言处理

《Retrieval-Augmented Generation for Natural Language Processing: A Survey》,https://arxiv.org/abs/2407.13193,系统地回顾了检索增强生成(RAG)在自然语言处理(NLP)中的应用和挑战。

10、2024.08.15综述GraphRAG方案

《Graph Retrieval-Augmented Generation: A Survey》,https://arxiv.org/abs/2408.08921,系统性地回顾了Graph Retrieval-Augmented Generation (GraphRAG) 的现状和发展方向。

看点包括GraphRAG工作流程,包括图基索引(G-Indexing)、图引导检索(G-Retrieval)和图增强生成(G-Generation)三个阶段。

图基索引(G-Indexing): 构建和索引图数据库,使用开放知识图谱和自构建图数据。索引方法包括图索引、文本索引和向量索引;

图引导检索(G-Retrieval): 从图数据库中提取相关图元素,使用非参数检索器、基于语言模型的检索器和基于图神经网络的检索器。检索策略包括一次检索、迭代检索和多阶段检索;

图增强生成(G-Generation): 将检索到的图数据转换为生成器可接受的格式,并结合查询生成响应。生成器可以是图神经网络(GNNs)、语言模型(LLMs)或混合模型。

11、2024.09.23综述RAG数据利用方案

《Retrieval Augmented Generation (RAG and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely》,https://arxiv.org/abs/2409.14924,探讨了如何通过外部数据增强大模型(LLMs)的能力。

提出了一个任务分类方法来更好地利用这些数据,将用户查询分为四个层次:显性事实查询、隐性事实查询、可解释理由查询和隐藏理由查询。

12、2024.10.23回顾演变时间线

《A Comprehensive Survey of Retrieval-Augmented Generation (RAG: Evolution, Current Landscape and Future Directions》,https://arxiv.org/abs/2410.12837,全面研究检索增强生成(RAG)技术,追溯其从基础概念到当前状态的演变过程。

总结

本文主要介绍了2022-2024三年来的12个RAG综述,共12个综述文章,设计评测、检索策略、架构、多模态、演化等多个环节,这个对于全面的了解RAG很有意义。大家可以按图索骥,找到自己所关注的点。

RAG已经为大家所熟知了,但依旧有很多问题没有解决,大家可以多挖掘。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值