Prompt工程师必读 | 降低幻觉,用RAG还是RAT?用ChatGPT 4o一次生成7100字文章

最近,LLMs推理过程中的事实性错误和幻觉问题日益引起关注。我看到很多以RAG(检索增强生成)这一方法为主题的研究,减少幻觉这一问题在需要多步骤、上下文感知推理的长视野生成任务中尤为突出,因为中间推理步骤的正确性对于这类任务至关重要。RAG和LLM之间权衡也存在不少问题,你可以移步看下文

近日,北京大学、加州大学洛杉矶分校和北京通用人工智能研究院的研究者提出了一种新颖的Prompt Engineering方法——检索增强的思维(Retrieval Augmented Thoughts, RAT),主要利用信息检索显著提升LLM在长视野生成任务中的推理和生成能力,同时大幅减少幻觉现象。

RAT方法

01

研究者提出的RAT方法包含两个关键思路:

1. 在LLM生成初始的零样本思维链(chain-of-thought, CoT)后,利用与任务查询、当前和过去的思维步骤相关的检索信息,逐步修正每个思维步骤。

2. 修正思维链的过程是渐进式的,即LLM根据修正后的思维链逐步生成最终答案,每一步只修正当前的思维步骤。

RAT的工作流程如下(如图1所示):

给定一个任务提示,首先提示LLM生成逐步的零样本思维链。然后,假设我们已经修正了前i-1个思维步骤,准备修正第i步,此时将任务提示、过去修正的i-1步思维和当前第i步思维转化为一个查询,用于检索相关的文档。接着,将检索到的文档前置到提示中生成修正后的第i步思维。最后,根据具体任务,修正后的完整思维链可以直接作为最终答案,或者LLM根据每一步修正的思维逐步生成完整答案(如代码、文章等)。

需要注意的是,在修正每一步思维时,RAT采用了因果推理方式,即查询和修正只依赖于之前已经修正的思维步骤和当前步骤,确保了推理过程的连贯性。同时,RAT以因果渐进的方式结合检索与推理,避免了传统RAG方法中一次性检索所有信息可能带来的干扰。这种结合结构化推理与持续知识检索的交互式生成范式,是RAT在需要复杂推理的开放域任务中取得优异表现的关键所在。

实验结果

02

研究者在代码生成、数学推理、具身任务规划和创意写作等一系列具有挑战性的长视野任务上评估了RAT方法。实验采用了不同规模的LLM作为基础模型,包括GPT-3.5、GPT-4和CodeLLaMA-7b。结果表明(如图2所示),将RAT与这些LLM结合可以显著超越原版直接生成(DIRECT)的CoT提示和RAG方法。

- 代码生成任务:在HumanEval、HumanEval+、MBPP和MBPP+基准测试上,RAT将pass@1指标平均提升了13.63%。

- 数学推理任务:在GSM8K上提升了8.36%,在GSMHard上提升了31.37%。

- Minecraft任务规划:可执行性提升了2.96倍,可信度评分提升了51.94%。

- 创意写作:人工评分平均提升了19.19%。

这些结果量化地展现了RAT在需要复杂推理的长视野任务中的优越性能。将大语言模型与检索增强、思维链等提示方法巧妙结合,并采用因果渐进的方式修正思维过程,可以大幅提升模型应对开放域问题的能力。

消融实验

03

RAT论文还进行了两项重要的消融实验,以探究其核心设计的有效性。

第一项消融实验关注RAT中不同检索策略对性能的影响(表1)。实验基于HumanEval和HumanEval+代码生成任务,将RAT的因果推理方式与非因果推理进行了对比,同时以思维链(CoT)作为基准。结果显示,采用因果推理的RAT在pass@1和pass@5指标上都明显优于非因果方法和CoT基准。这说明RAT中交替进行推理和检索,利用不断更新的上下文来细化搜索和推理步骤,可以检索到更加精准相关的信息,从而得到更准确的最终答案。

另一项消融实验则聚焦于RAT检索查询构建的优化。实验结果表明(表2),RAT通过迭代细化检索查询的方式,在HumanEval和HumanEval+基准测试中的表现显著优于使用问题本身作为查询的baseline(RAG-1),以及将LLM输出的完整思维过程作为查询的CoT+RAG方法。RAT的动态查询优化策略,可以确保检索到高度相关的信息,从而提升检索内容的针对性和最终输出的质量。

消融实验充分证实了RAT的两大核心设计——因果推理方式和动态查询优化在支持长视野问题求解中的显著效能,为今后开发灵活高效的LLM的Prompt Engineering方法提供了重要参考。

具体案例

04

以Minecraft任务规划和创意写作为例,我们可以看到RAT在实际应用中的优势。

对于Minecraft长视野规划,LLM虽然可以通过零样本CoT推理找出必要的物品,但程序步骤往往存在不准确的地方。经典的RAG算法以问题本身为检索查询,主要关注最终目标物品,对中间物品的检索不充分,对任务改进有限。相比之下,RAT通过持续细化的检索不断修正CoT的初始答案,与任务进展和RAG知识紧密结合,显著提高了规划的有效性。

在创意写作任务中,对LLM生成内容的评估通常侧重于完整性和准确性,而RAG方法倾向于总结检索到的内容。相比之下,RAT基于LLM的初稿答案进行检索,发现细节处的错误通常不会妨碍搜索引擎找到相关信息。RAT利用检索内容识别并修正初稿中的错误,而不是简单地总结检索内容。因此,RAT可以通过推理实现完整的内容生成,并利用检索知识增强答案的准确性和可信度。我用文章中的实验方法写了一些Prompt在ChatGPT 4o上进行了实验,相比起直接提问,生成的内容在准确度以及在字数上都有很高的提升(生成文就不展示了)。

用RAT方法后,生成内容的准确度提升(广泛应用最新技术报道),字数由1075字显著提升到7120字。

需要注意

05

RAT提供了一种简单而有效的提示工程范式。通过精心设计合适的提示模板,引导LLM在推理过程中适时利用外部知识进行修正,有望在代码生成、创意写作、任务规划等领域大幅提升LLM的能力,为打造更加智能、可靠的AI助手铺平道路。同时,工程师在参考RAT思想构建应用时,也需注意以下几点:

1. 知识库的选择要适配具体任务,涵盖足够的领域知识,同时要注意召回率和准确率的平衡。

2. 提示模板的设计要巧妙引导LLM高效利用检索信息进行推理修正,需要对LLM的推理特点有较为深入的理解。

3. 在某些推理任务中,逐步思考可能显得多余。因此,还需要探索更灵活的推理方法,以适应不同问题的特点。

RAT方法为LLM在复杂推理任务中注入外部知识提供了新的思路。尤其我们在网页与LLM交流时,结合RAT的思路,可以充分利用检索功能和自己的知识库构建出很不错的AI应用。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值