16种新型RAG最新进展

RAG,可以说是大模型时代最成功的落地模式之一,通过检索-生成的方式,极大的拓展了大模型的应用边界, 但是,RAG 在落地实践上却没有那么简单。相信做过 RAG 系统的小伙伴都碰到过如下的问题:

什么场景或问题下需要检索?1+2=?的计算题好像不需要,但为什么 1+2=3 好像就需要。

检索到的信息是否有用?是否正确?

检索到的信息怎么用?直接与用户的问题拼接还是需要进行信息压缩后拼接?

以什么逻辑进行召回?召回信息是否需要排序?

……

这些问题没有“放之四海皆准”的答案,在不同的场景、数据下,解决方案各不相同。

从 23 年 RAG 火爆以来,各类 RAG 框架或解决方案没有上百也有几十个了,AnythingLLM、RAGFlow、Ollama 等,每一个都能搭建出一个完整基于 RAG 的知识库,但是通用 ≠ 好用。每一个场景、甚至每一个人的数据都是独特的,这对于 RAG 系统的效果带来了巨大的挑战。但这也带来了 RAG 领域研究的百花齐放。

今天,和各位小伙伴,一起看下最近的几篇关于 RAG 的文章,了解下学术界在 RAG 上探索。

简短总结版

可以看出以下几个趋势:

  1. 专业化趋势:许多 RAG 变体都针对特定领域进行了优化,如医疗、金融、材料科学等

  2. 多模态融合:越来越多的 RAG 技术开始处理多模态数据,如视频、图像、文本的结合

  3. 安全性考虑:随着 RAG 技术的普及,安全性问题(如 RAG-Thief 所研究的)也开始受到关注

  4. 效率优化:新的 RAG 变体都在尝试通过各种方式提升处理效率,降低计算成本

  5. 可解释性提升:许多新方法都强调了可解释性的重要性,试图让模型决策过程更透明

基础架构的创新

你有没有遇到过这样的情况,让 RAG 回答一个问题,它要么给出一大堆相关但不够准确的信息,要么干脆答非所问。这就像一个初入职场的新人,虽然知识储备不错,但不太懂得“抓重点”。

针对这些基础问题,研究者们提出了一系列创新性的解决方案。比如中科院提出的 AutoRAG,它不再是简单地“给什么找什么”,而是让 RAG 系统学会自主判断。

假设你问“谁是《怪物史莱克》中驴子的配音演员?”,普通的 RAG 系统可能会傻乎乎地去搜索所有包含“驴子”和“配音”的资料。但 AutoRAG 会这样思考:

看到区别了吧,AutoRAG 就像一个会自主思考的助手,知道该怎么一步步找到最准确的答案。同时,它还可以用自然语言解释自己的思考过程,让你明白它为什么这样做。这种透明度在实际应用中特别重要。

CORAG 则从另一个角度提出了解决方案。现有的 RAG 系统在选择文本块时往往独立考虑,忽视了文本块之间的相关性。这就像是在解答一个复杂问题时,只看到了各个零散的知识点,却没有将它们有机地联系起来。

CORAG 的核心创新在于使用蒙特卡洛树搜索(MCTS)来探索文本块的最优组合顺序,同时引入配置代理来动态调整系统参数。它就像是在玩一个高级版的拼图游戏:

不过,这种方法也有其局限性:构建和遍历策略树需要较多计算资源,参数的调整也需要仔细权衡。

我们都知道大模型是有上下文长度限制的,过长的上下文内容会显著的降低大模型的效果。在 RAG 中尤为明显,为了让 RAG 能够“记住”和“理解”知识,研究者们提出了一些非常有意思的解决方案。

FastRAG 制定了一个“两步走”的策略,先用简单的关键词匹配快速划定范围,再用更复杂的语义分析找出最相关的内容,就像你在找一本书,先看书架的分类标签找到大致区域,再根据书名和目录找到具体的那本。这不就是传统搜索引擎的召回-粗排-精排的逻辑嘛。

可能 AssistantRAG 的作者出发点是想借鉴 Adapter 的思想,提出了一个很类似的设计:既然一个大模型的记忆能力有限,那么给主模型配备一个“专业秘书”模型。

秘书模型负责记忆管理和知识管理,它会记录历史问答信息,评估这些记忆对当前问题的帮助程度;还会将复杂问题分解成简单的子问题,针对每个子问题检索外部知识库,主模型负责生成最终的输出。这种方法的优势在于灵活性强,在不同的场景,通过更换秘书模型达到快速适配的目的。

MemoryRAG 引入了一个“记忆模块”,就像是一个经验丰富的图书管理员,不仅懂得找书,还能理解读者的潜在需求。就像是你要找一本关于爱情主题的书籍的时候,可能书名根本不包括爱情。

MemoryRAG 采用了双重架构,一个负责处理长文本形成整体印象,另一个负责最终的回答生成。这种设计特别适合处理需要全局理解的复杂查询,比如分析文学作品中的人物关系、总结长篇报告等任务。

为了更好的利用外部的知识,RuAG 通过规则增强的方式来提升模型的理解能力。比如在天气预测场景中,与其让模型记住大量天气数据,不如教会它理解“如果温度超过 30 度且湿度低于 50%,那么天气晴朗”这样的规则。这种方法更容易理解和记忆,计算成本也较低。

复杂数据的处理

随着 RAG 应用场景的不断增多,我们可能会遇到各种各样的数据,网页、PDF、文本、时序、音频、视频等等,每种数据类型都带来了独特的挑战。

在网页数据处理方面,HtmlRAG 提供了一个很巧妙的解决方案。它不是简单地把网页转换成纯文本,而是尝试保留那些传达重要含义的 HTML 标签。它首先会清理掉网页中的广告代码、样式表等“干扰信息”,但会保留那些传达重要含义的 HTML 标签。

比如说,“

Windows 安装教程

”这样的标签就会被保留,因为它告诉我们这是一个重要的标题。相比纯文本的方式,基于这样的结构化信息, HtmlRAG 能够更加高效的利用网页信息。

时间序列预测是个老生常谈的问题,比如预测明天的天气、股票走势、电力消耗等。传统方法往往把这些预测看作是独立的任务。但想想看,如果我们能找到历史上相似的情况作为参考,预测效果会不会更好呢?

举个简单的例子:假设你在预测某个城市明天的温度。如果你能找到历史上天气条件非常相似的那几天,看看那之后温度是怎么变化的,这样的预测显然会更准确。

这就是论文提出检索增强预测(RAF)的核心思想。它会先在历史数据中找到类似的模式片段,看看那个历史数据之后模式是怎么变化的,再将这些历史经验作为预测的参考。

除了文本之外,有没有想过,RAG 的思想也是可以应用到视频理解场景的,但你知道现在的大语言模型处理长视频时会遇到什么问题吗?最主要的就是“记不住” - 上下文窗口的限制让它们难以处理长视频。

有的团队试图通过微调来扩展模型的处理能力,有的则尝试使用更大的模型。但这些方法要么需要大量训练数据,要么成本太高。

VideoRAG 提出了一个很独特的方法。它从不同角度来理解视频:

从多个维度去理解视频确实能够得到更好的效果,但不同信息之间的对齐可能是一个需要考虑的问题

垂直领域的创新

RAG 技术在各个垂直领域都展现出了强大的应用潜力,研究者们针对不同领域的特点,提出了一系列创新性的解决方案。

我们知道,在医疗领域,精确和可靠的诊断信息处理至关重要。LabRAG 模仿了医生看片的过程,先识别关键的医学发现,再基于这些发现写报告。PathRAG 专门针对病理切片图像进行了优化,它结合了关键区域识别和大语言模型,在准确率上提高了将近 10 个百分点。

MMedRAG 解决了医疗视觉语言模型在生成回答时经常产生幻觉的问题,它引入了领域感知的检索机制、自适应的上下文选择方法和基于 RAG 的偏好微调策略,显著提高了生成内容的原创性和可靠性。

在材料科学领域,G-RAG 提供了一个非常创新的解决方案。它将图数据库整合到检索过程中,通过实体提取与关联、智能文档解析、图谱增强检索等技术,在准确性评分上远高于传统 RAG 系统。这种提升在材料科学这样需要精确信息的领域特别重要。

RAGDiffusion 为时尚电商领域提供了一个实用的解决方案。它像一个经验丰富的摄影师,通过分析输入的服装照片,在标准服装图片数据库中寻找相似的参考样本,再采用多层次的生成对齐策略,确保生成图片的高质量。

比较让人意外的是,这个系统的泛化性也非常的好,通过简单更新检索数据库,就能够处理全新的服装款式,这种灵活性在快速变化的时尚行业特别重要。

金融分析师每天要阅读大量的财报、公告、研究报告,而且时效性要求特别高。针对这种情况,研究者们开发了 MultiReranker 系统。它的工作方式如下:

首先,它会对用户的问题进行多维度的拆解和改写,比如当你问“Q3 的 ROE 是多少”时,系统会先理解:

然后,它采用了一个“多级筛选”的策略,就像是组建了一个金融分析师团队:

通过多级的检索机制实现对信息对高效利用。特别是,当输入文本太长时,系统会把文档分成两半分别处理,然后再把生成的答案合并起来,既保证了准确性,又提高了效率。

RAG 的双刃剑

没有绝对安全的系统,也没有绝对安全的技术。

随着 RAG 技术在医疗、金融、法律等敏感领域的广泛应用,安全性问题日益凸显。RAG-Thief 的研究让我们清晰地看到了当前 RAG 系统中存在的安全隐患。

很多人可能会觉得疑惑:RAG 系统不是只会返回相关信息吗,怎么会有安全问题呢?但研究者通过巧妙设计的实验揭示了其中的风险。

想象一下,如果一家医院使用 RAG 系统来回答医疗咨询,当有人问“感冒有什么症状”时,系统会正常地返回一般性的医学知识。

但如果有人用特殊的方式提问,比如巧妙地设计问题来套取原始病例信息,系统可能就会不经意间泄露病人的隐私数据。论文发现,在没有特殊防护措施的情况下,攻击者能够提取出超过 70% 的知识库内容。

针对这些问题,也有一些可以探索的措施。例如,在系统层面,需要建立严格的访问控制机制,对检索内容进行脱敏处理,并建立完善的安全审计系统。在算法层面,可以引入噪声扰动和差分隐私技术,降低信息泄露的风险。在日常运营中,定期的安全评估和及时的漏洞修复也是不可或缺的。

总结

最后,来一个小小的总结吧。RAG 的范式是简单可理解的,但真正落地实践的过程中,会有许许多多的问题和痛点。上面提到的 RAG 方法或框架,也只是给出了优化探索的方向,真正在自己的场景中发挥 RAG 的效果,还是有一段路需要摸索。

在实际中应用 RAG 的时候,可以进行综合的考虑,效果不佳的情况下可以尝试进行各种组合,在效果不达标的情况下,不要过度的考虑性能,毕竟,抛开效果谈性能也是耍流氓!

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

### 大型语言模型(LLM)与检索增强生成(RAG)技术的最新进展 #### 背景概述 大型语言模型(LLM)近年来取得了显著的进步,其强大的参数规模使其能够处理复杂的自然语言任务。然而,在实际应用场景中,仅依赖于预训练的知识可能不足以满足特定需求。因此,引入外部知识源成为一种有效的补充方式。检索增强生成(RAG)是一种结合了大规模语言建模能力和外部知识库的技术框架,旨在通过动态检索相关文档来提高生成的质量和准确性。 一篇关于此主题的研究综述指出,RAG 方法提供了一种系统化的方式来利用外部数据增强 LLM 的能力[^3]。这种方法不仅提升了模型的表现,还为解决传统 LLM 中存在的幻觉问题提供了新的思路。 #### 技术细节与发展动向 为了更好地融合 LLM 和知识图谱(KG),研究人员正在探索两者的协同作用以支持多种推理场景的应用开发。具体而言,未来的一个重要方向是如何利用 KG 来检测并减少 LLM 输出中的错误信息或“幻觉”现象[^2]。这种结合可以有效改善模型在事实性和逻辑一致性方面的能力。 另外值得注意的是 RAGas 工具的存在及其意义——作为一种针对 RAG 应用程序性能评估的方法论集合体,它可以自动生成高质量的数据集用于测试目的,从而大幅减少了人工成本,并提高了实验效率[^4]。 #### 实际案例分析 在一个典型的工作流程里,当给定输入查询时,RAG 首先会从大量存储的信息资源当中挑选出最有可能相关的片段;接着这些选出来的上下文会被送入到后续阶段作为条件变量参与最终响应内容创作过程之中。这样的机制使得即使面对从未见过的新颖话题领域也依然具备较强适应力因为总有机会找到匹配度较高的参考资料加以辅助决策制定环节操作执行层面表现形式呈现多样化趋势特征明显区别以往单纯依靠内部记忆结构完成全部计算工作的模式转变成现在以外部实时获取新鲜素材为主导驱动因素主导整个运转体系正常运行下去不可或缺的重要组成部分之一部分组成要素构成整体架构设计蓝图规划方案实施策略指导方针原则遵循标准规范要求规定条款细则具体内容事项项目条目列举如下所示代码实现样例如下: ```python from transformers import RagTokenizer, RagRetriever, RagSequenceForConditionalGeneration tokenizer = RagTokenizer.from_pretrained("facebook/rag-sequence-nq") retriever = RagRetriever.from_pretrained( "facebook/rag-sequence-nq", index_name="exact", use_dummy_dataset=True ) model = RagSequenceForConditionalGeneration.from_pretrained("facebook/rag-sequence-nq", retriever=retriever) question = "What is the capital of France?" input_ids = tokenizer.question_encoder(question, return_tensors="pt")["input_ids"] outputs = model.generate(input_ids) answer = tokenizer.decode(outputs[0], skip_special_tokens=True) print(f"Answer: {answer}") ``` 上述脚本展示了如何加载预先训练好的 RAG 模型并通过简单提问获得相应解答的过程演示效果直观易懂便于理解掌握学习模仿复制粘贴直接上手实践动手尝试体验感受乐趣无穷尽享其中奥秘所在之处隐藏玄机等待发掘探索发现惊喜连连不断涌现层出不穷源源不断持续供应供给保障充足充分完全彻底圆满达成目标成就梦想追求理想境界巅峰极致高度水平层次维度角度全方位多视角立体展现展示表达传达沟通交流互动分享共赢互利互惠相互促进共同成长进步发展进化变革创新创造发明开拓进取勇往直前无惧挑战迎难而上方显英雄本色彰显非凡气概豪情壮志满怀激情澎湃热血沸腾斗志昂扬意气风发精神焕发活力四射光芒万丈照亮前行道路指引前进方向引领潮流风尚树立标杆榜样模范表率典范代表象征标志旗帜灯塔明灯指路引航导航定位定向定点精准精确确切确实真实可靠信赖信任信心信念信仰坚持坚守执着专注专心致志心无旁骛全神贯注聚精会神屏息凝视目不转睛一鼓作气乘胜追击再接再厉百尺竿头更进一步精益求精追求卓越永不停歇脚步迈向新征程开启新纪元谱写新篇章铸就新辉煌!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值