深度解析两种增强的AI Agent反思模式

最新推荐文章于 2025-05-03 09:07:35 发布

大模型研究院

最新推荐文章于 2025-05-03 09:07:35 发布

阅读量1k

点赞数 15

文章标签：人工智能机器学习语言模型自然语言处理深度学习大模型

本文链接：https://blog.csdn.net/l01011_/article/details/145174280

版权

反思（Reflection），是一种重要的AI Agent工作范式。由于我们不再满足于生成式AI单次响应的能力，而是期望它能像人类一样反思和不断改进，生成更加精准和可靠的结果，这对于扩大生成式AI在高要求生产环境下的应用非常关键。基本的反思模式通过简单的生成和自我反馈循环，不断优化输出：

但这种基础反思模式仅限于内部逻辑与规则的反思及优化，就像考试时候的自我检查，尽管很多时候能发现一些问题，但还是远远不够的。今天我们来介绍两种增强的Agent反思模式。

基于外部验证的增强反思
基于多路径优化的增强反思

一、基于外部验证的增强反思

这种模式在基本反思模式的基础上，加入了外部工具执行与多源信息验证，成为更强大、更灵活的反思解决方案。

1、基本工作流程

增强反思模式通过LLM的自我批评、外部工具调用与验证、多轮循环优化，最后生成高质量输出。这是一种借助外部反馈来不断优化的模式。

其工作流程可以用下图表示：

这个流程中涉及的关键节点包括初始响应（Responder）、外部验证（Execute Tools）、响应修订（Revisor）。基本流程为：

用户请求：用户输入查询问题或任务需求
初始生成：初步答案、初步反思结果、以及验证建议。验证建议比如：网络搜索、查询数据库、运行代码查看结果等
调用工具：根据验证建议，执行外部工具获得结果，这些结果用来优化输出
响应修订：根据工具结果对输出进行修订，并再次给出反省与验证建议
多轮优化：经过多轮修订、反思、外部验证的迭代，逐步优化输出
最终输出：返回给用户经过验证和改进的高质量结果

2、应用场景

显然，这种增强的反思模式非常适合可以借助外部信息验证与优化的复杂场景。这里我们展望一些可能的任务：

1. 代码生成与调试

AI生成代码初稿后，调用工具（如Docker沙盒）来运行代码，捕获错误，并将错误反馈给修订模块用于下一轮的优化，最终生成正确的代码。

2. 专业研究报告辅助撰写

针对某个专业研究专题（如气候变化研究），需要让AI生成部分内容，比如背景阐述与最新研究进展，并引用权威文献与数据。就可以借助网络搜索最新的科学报告，用来对输出结果进行修订，弥补内容缺失、修订错误数据、增加可信度，并增加文献引用说明等。

3. 企业内财务报告生成

在基于企业内部财务数据生成初步的财务报告后，可以借助网络搜索获得行业基准数据、市场趋势、竞争对手统计数据等，从而修订与整合到已有的财务报告中，用来发现可能的数据异常，丰富报告内容，提升报告价值。

3、与普通反思模式的对比

与普通反思的对比如下：

二、基于多路径优化的增强反思

尽管前面介绍的反思模式已经为一些复杂任务的输出增大了正确性与可信度，但仍然存在一个问题：

专注于单一行动路径的优化，没考虑多路径的全局最优性。

简单的说，在生成-反思-优化这个过程中，有时候会存在多种可能优化选择，而你需要尝试这些不同路径，以获得最优答案。比如这样的任务：

“生成一个满足特定性能指标与要求的函数代码。”

在每次反思与优化时，你可能存在多种不同的优化版本选择。你可能需要对这些不同的选择进行评估，选择最优路径；然后在此基础上再次迭代与优化，直到获得最佳版本。

LATS（Language Agent Tree Search）就是针对这种优化需要的一种方法。

01、基本工作流程

LATS借助类似蒙特卡洛树搜索（Monte Carlo Tree Search）的算法，结合生成、反思与回溯评估，能够高效探索任务的多种可能解决方案，显著提升任务完成的整体表现。这种模式不再局限于单路径的逐步改进，而是通过全局探索找到真正最佳的解决路径。

LATS中的“Search”是指在一种决策树结构中找到最优路径的过程，也可以理解为在大量可能的决策选项中探索和优化。与互联网搜索没有关系。

LATS的工作流程如下：

LATS也是一个生成(Generate)与反思(Reflect）不断迭代的过程，所不一样的是，它每次的迭代优化会生成多个可能的候选路径。整个探索过程解释如下：

1. 初始响应与评估

开始时，借助LLM（与外部工具）生成一个初始的响应结果。并对响应结果进行反思与评估得分。

2. 扩展优化

从初始响应生成多个候选的优化结果，并也对每个结果进行反思与评估得分。

3. 选择下一个扩展节点

由于此时有了多个优化结果，则采用一定的算法来选择下一个最优路径（比如上图中，选择从0.8得分的这个结果继续优化）。

注意这里不是简单的选择本轮评估得分最高的节点，而是会考虑整个行动路径的累积行动得分：将当前节点的得分反馈到父节点，更新整个路径的奖励值。通过这种方式，可以选择下一步的最佳行动路径。在蒙特卡洛树搜索中，会使用UCT（Upper Confidence Bound for Trees）算法来选择下一个行动节点。

此处你只需要理解为，在当前最优的路径上继续优化。

4. 迭代进行2-3步，直到答案最优。

从选择的最优路径上，重复上面的2-3步：生成多个候选优化结果–>评估结果–>选择最优路径->…。整个过程直到评估结果认为已经找到了最优答案，或者达到最大迭代次数。

02、应用场景

LATS适合对输出结果要求较高、并愿意用时间换输出质量的任务场景：通过多路径的不断选择与优化，直到找到最佳结果。比如：

1. 生成复杂代码片段

在初始代码版本基础上，生成多个优化版本，并借助每个代码版本的执行结果进行评估，进而选择最优的版本做迭代优化。

2. 游戏AI

在一些游戏AI智能体中，借助类似的方法探索，在每一次迭代中对多个候选步骤进行模拟与评估，然后选择最优决策路径。

2. 复杂任务规划推理

在一些复杂任务步骤的推理中（比如物流最优路径等），你可以借助这种方法，不断评估多种候选方案的成本、时间等计算得分，最后选择出一条最佳的任务方案。

03、与普通反思模式的对比

与普通反思模式的对比如下：

总结

本文介绍了两种增强的反思模式：基于外部验证的反思和基于多路径优化的反思。前者通过调用外部工具与多源信息验证，提高了答案的准确性和可信度；后者通过多路径探索与优化，解决了单一路径局限性，能够高效找到全局最优解。

这些增强反思模式的引入，不仅扩展了生成式 AI 在代码生成、研究辅助、企业决策等高要求场景下的应用范围，还为未来 AI 系统的可靠性和智能性提升提供了新思路，有望在更多复杂生产环境中实现价值最大化，为各行业带来更大的生产力变革。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】