Prompt工程师必读 | 降低幻觉，用RAG还是RAT？用ChatGPT 4o一次生成7100字文章

本文链接：https://blog.csdn.net/m0_59235699/article/details/140333779

最近，LLMs推理过程中的事实性错误和幻觉问题日益引起关注。我看到很多以RAG（检索增强生成）这一方法为主题的研究，减少幻觉这一问题在需要多步骤、上下文感知推理的长视野生成任务中尤为突出，因为中间推理步骤的正确性对于这类任务至关重要。RAG和LLM之间权衡也存在不少问题，你可以移步看下文

近日，北京大学、加州大学洛杉矶分校和北京通用人工智能研究院的研究者提出了一种新颖的Prompt Engineering方法——检索增强的思维(Retrieval Augmented Thoughts， RAT)，主要利用信息检索显著提升LLM在长视野生成任务中的推理和生成能力，同时大幅减少幻觉现象。

RAT方法

研究者提出的RAT方法包含两个关键思路：

1. 在LLM生成初始的零样本思维链(chain-of-thought， CoT)后，利用与任务查询、当前和过去的思维步骤相关的检索信息，逐步修正每个思维步骤。

2. 修正思维链的过程是渐进式的，即LLM根据修正后的思维链逐步生成最终答案，每一步只修正当前的思维步骤。

RAT的工作流程如下(如图1所示)：

给定一个任务提示，首先提示LLM生成逐步的零样本思维链。然后，假设我们已经修正了前i-1个思维步骤，准备修正第i步，此时将任务提示、过去修正的i-1步思维和当前第i步思维转化为一个查询，用于检索相关的文档。接着，将检索到的文档前置到提示中生成修正后的第i步思维。最后，根据具体任务，修正后的完整思维链可以直接作为最终答案，或者LLM根据每一步修正的思维逐步生成完整答案(如代码、文章等)。

需要注意的是，在修正每一步思维时，RAT采用了因果推理方式，即查询和修正只依赖于之前已经修正的思维步骤和当前步骤，确保了推理过程的连贯性。同时，RAT以因果渐进的方式结合检索与推理，避免了传统RAG方法中一次性检索所有信息可能带来的干扰。这种结合结构化推理与持续知识检索的交互式生成范式，是RAT在需要复杂推理的开放域任务中取得优异表现的关键所在。

实验结果

研究者在代码生成、数学推理、具身任务规划和创意写作等一系列具有挑战性的长视野任务上评估了RAT方法。实验采用了不同规模的LLM作为基础模型，包括GPT-3.5、GPT-4和CodeLLaMA-7b。结果表明(如图2所示)，将RAT与这些LLM结合可以显著超越原版直接生成(DIRECT)的CoT提示和RAG方法。

- 代码生成任务：在HumanEval、HumanEval+、MBPP和MBPP+基准测试上，RAT将pass@1指标平均提升了13.63%。

- 数学推理任务：在GSM8K上提升了8.36%，在GSMHard上提升了31.37%。

- Minecraft任务规划：可执行性提升了2.96倍，可信度评分提升了51.94%。

- 创意写作：人工评分平均提升了19.19%。

这些结果量化地展现了RAT在需要复杂推理的长视野任务中的优越性能。将大语言模型与检索增强、思维链等提示方法巧妙结合，并采用因果渐进的方式修正思维过程，可以大幅提升模型应对开放域问题的能力。

消融实验

RAT论文还进行了两项重要的消融实验，以探究其核心设计的有效性。

第一项消融实验关注RAT中不同检索策略对性能的影响(表1)。实验基于HumanEval和HumanEval+代码生成任务，将RAT的因果推理方式与非因果推理进行了对比，同时以思维链(CoT)作为基准。结果显示，采用因果推理的RAT在pass@1和pass@5指标上都明显优于非因果方法和CoT基准。这说明RAT中交替进行推理和检索，利用不断更新的上下文来细化搜索和推理步骤，可以检索到更加精准相关的信息，从而得到更准确的最终答案。

另一项消融实验则聚焦于RAT检索查询构建的优化。实验结果表明(表2)，RAT通过迭代细化检索查询的方式，在HumanEval和HumanEval+基准测试中的表现显著优于使用问题本身作为查询的baseline(RAG-1)，以及将LLM输出的完整思维过程作为查询的CoT+RAG方法。RAT的动态查询优化策略，可以确保检索到高度相关的信息，从而提升检索内容的针对性和最终输出的质量。

消融实验充分证实了RAT的两大核心设计——因果推理方式和动态查询优化在支持长视野问题求解中的显著效能，为今后开发灵活高效的LLM的Prompt Engineering方法提供了重要参考。

具体案例

以Minecraft任务规划和创意写作为例，我们可以看到RAT在实际应用中的优势。

对于Minecraft长视野规划，LLM虽然可以通过零样本CoT推理找出必要的物品，但程序步骤往往存在不准确的地方。经典的RAG算法以问题本身为检索查询，主要关注最终目标物品，对中间物品的检索不充分，对任务改进有限。相比之下，RAT通过持续细化的检索不断修正CoT的初始答案，与任务进展和RAG知识紧密结合，显著提高了规划的有效性。

在创意写作任务中，对LLM生成内容的评估通常侧重于完整性和准确性，而RAG方法倾向于总结检索到的内容。相比之下，RAT基于LLM的初稿答案进行检索，发现细节处的错误通常不会妨碍搜索引擎找到相关信息。RAT利用检索内容识别并修正初稿中的错误，而不是简单地总结检索内容。因此，RAT可以通过推理实现完整的内容生成，并利用检索知识增强答案的准确性和可信度。我用文章中的实验方法写了一些Prompt在ChatGPT 4o上进行了实验，相比起直接提问，生成的内容在准确度以及在字数上都有很高的提升（生成文就不展示了）。

用RAT方法后，生成内容的准确度提升（广泛应用最新技术报道），字数由1075字显著提升到7120字。

需要注意

RAT提供了一种简单而有效的提示工程范式。通过精心设计合适的提示模板，引导LLM在推理过程中适时利用外部知识进行修正，有望在代码生成、创意写作、任务规划等领域大幅提升LLM的能力，为打造更加智能、可靠的AI助手铺平道路。同时，工程师在参考RAT思想构建应用时，也需注意以下几点：

1. 知识库的选择要适配具体任务，涵盖足够的领域知识，同时要注意召回率和准确率的平衡。

2. 提示模板的设计要巧妙引导LLM高效利用检索信息进行推理修正，需要对LLM的推理特点有较为深入的理解。

3. 在某些推理任务中，逐步思考可能显得多余。因此，还需要探索更灵活的推理方法，以适应不同问题的特点。

RAT方法为LLM在复杂推理任务中注入外部知识提供了新的思路。尤其我们在网页与LLM交流时，结合RAT的思路，可以充分利用检索功能和自己的知识库构建出很不错的AI应用。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述