Salesforce 新方法让RAG效果飙升

RAG

Diversity Enhances an LLM’s Performance in RAG and Long-context Task

大型语言模型(LLMs)的快速发展凸显了上下文窗口限制的挑战,这主要是由于自注意力机制的二次时间复杂度((O(N^2)),其中 (N) 表示上下文窗口长度)。这一限制影响了问答(Q&A)中的检索增强生成(RAG)和长上下文摘要等任务。一种常见的方法是选择与查询最相似的内容;然而,这通常会导致冗余,并排除多样化的相关信息。基于最大边缘相关性(MMR)和最远点采样(FPS)的原则,我们在内容选择过程中引入了多样性。我们的研究发现,在基于 LLM 的问答和摘要之前,将多样性融入内容选择,可以显著提高相关句子或块的召回率。这些结果强调了在未来的 LLM 应用中保持多样性的重要性,以进一步提升摘要和问答的效果。

https://arxiv.org/abs/2502.09017

为什么大模型需要学会"挑食"?

在开发大语言模型应用时,我们常常遇到这样的困境:面对海量文本数据,模型就像面对满汉全席的新手食客,既想品尝所有美味,又受限于"胃容量"(上下文窗口)。这种限制主要源自 Transformer 架构的自注意力机制——每增加一个 token,计算量就会呈平方级增长。就像用 1000 块拼图拼一幅画,每增加一块新拼图,都需要和之前所有 999 块比对位置。

尽管 GPT-4 已经能将"胃容量"扩展到 12.8 万 token,但现实应用中的挑战依然严峻。想象你要开发一个法律咨询系统,需要同时处理上百份判例文书;或者开发医疗诊断助手,要分析患者长达十年的就诊记录。传统解决方案就像让食客只挑看起来最诱人的菜肴,但往往导致营养失衡——过度选择相似内容,漏掉关键信息。

多样性筛选:大模型的营养师

这时候就需要引入"营养师"角色——多样性筛选算法。它们的核心思想就像米其林餐厅的品鉴流程:既要保证食材品质(相关性),又要讲究菜品搭配(多样性)。目前主流的两种"营养搭配法"是:

1. 最大边际相关(MMR):精准的膳食平衡

MMR 算法的工作方式就像米其林大厨选食材。假设要为贵宾准备 8 道菜的套餐,主厨会:

1. 先选最符合客人偏好的主菜(比如龙虾)

2. 接着选与主菜搭配又能带来新味觉体验的辅菜(比如用松露而非普通蘑菇)

3. 持续平衡"客人喜好"和"菜单多样性"

数学公式中的 α 参数就像口味调节旋钮:α=0.7 时更注重菜品质量,α=0.3 时强调菜品多样性。在实际开发中,我们通过实验发现将 α 设置在 0.6-0.7 之间,能在问答任务中取得最佳效果。

2. 最远点采样(FPS):聪明的空间布局

FPS 算法源自 3D 点云处理,其原理就像城市规划师选址:

1. 随机选择第一个消防站位置

2. 第二个选址离第一个最远

3. 第三个选址离前两个最远的位置

4. 以此类推确保全面覆盖

当应用于文本选择时,这种策略能有效避免信息扎堆。比如处理医疗报告时,传统方法可能会重复选择"血压升高"的相关描述,而 FPS 能同时保留"心电图异常"、"肾功能指标"等不同维度的关键信息。

为什么多样性筛选能创造奇迹?

在我们的实验中,采用多样性筛选带来了三大突破性提升:

1. 召回率提升

在长文本问答(Q&A)任务中,传统方法倾向于选择与查询相似度最高的内容,但这种方式容易导致信息冗余或遗漏关键细节。

通过引入最大边际相关(MMR)和最远点采样(FPS) 两种多样性筛选策略,显著提升了候选内容的召回率。

实验显示,在单文档问答任务中,MMR和FPS相比基准方法(SB)的召回率提升了2%-5%;

在多文档问答任务中,MMR结合E5模型后,答案在检索文档中的召回率提升超过10%。

这种改进源于多样性筛选能覆盖更广泛的语义空间,减少重复内容的干扰,确保关键信息不被遗漏。

2. 推理延迟降低 40%

尽管MMR和FPS均能提升召回率,但两者的计算效率差异显著。实验发现,MMR的延迟远低于FPS,尤其是在处理长上下文时。例如,在自然问题(Natural Question)数据集上,当压缩比为0.2时,MMR的延迟仅为FPS的1/3。这一优势源于MMR采用余弦相似度计算,而FPS依赖欧氏距离,后者计算复杂度更高。此外,MMR支持动态调整超参数(如窗口大小和权重),进一步优化了实时性能。因此,MMR更适合实际应用场景,尤其是需要快速响应的工业级系统。

3. 内容顺序的隐藏价值

内容的排列顺序对LLM的理解能力影响深远。研究发现,保持句子在原文中的顺序(index sort) 能显著提升问答准确率。

例如,在单文档问答任务中,保持原始顺序的MMR方法(SB+MMR index sort)相比乱序版本的性能高出3%-5%(如上图)。

而对于分块(chunk)内容,将关键块置于提示的开头或结尾可进一步提升LLM的注意力(如上图),这与“Lost in the Middle”现象一致——模型容易忽略中间位置的信息。

此外,分块大小也影响效果:512词块的表现优于256词块和句子级分割(表7),说明适度的上下文连贯性对模型推理至关重要。

实践指南

在实际应用中,总结了三大黄金法则:

1. 参数调优四步法

  • 第一步:确定基线 α=0.5

  • 第二步:以 0.1 为步长进行网格搜索

  • 第三步:验证集上评估召回率和生成质量

  • 第四步:根据任务类型微调(问答任务建议 α=0.6,摘要任务 α=0.55)

2. 混合策略配置

对于超长文本处理,可以采用分级筛选:

  • 1.第一级用 FPS 快速粗选(窗口大小 100)

  • 2.第二级用 MMR 精准筛选(窗口大小 10)

  • 3.最终按原文顺序+相关性分数排序

3. 避免的五个陷阱

  • 1.盲目追求最大多样性(α<0.4 会导致信息偏离)

  • 2.忽视 embedding 模型的质量(建议使用 bge-large-v1.5)

  • 3.混合不同来源文档时未做归一化处理

  • 4.固定窗口大小不调整(建议动态设置:窗口大小=总 token 数/50)

  • 5.忽略内容顺序的影响(特别是时序性文档)

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值