大模型论文 | Agent-R：通过迭代自训练训练语言模型智能体进行反思

最新推荐文章于 2025-03-20 10:47:18 发布

大模型RAG实战

最新推荐文章于 2025-03-20 10:47:18 发布

阅读量764

点赞数 25

文章标签：语言模型人工智能自然语言处理大模型 ai agi LLM

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_59614665/article/details/145565973

版权

今天给大家带来最新的大模型论文，论文已开源。

【论文标题】

Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training

在这里插入图片描述

【论文链接】https://arxiv.org/pdf/2501.11425v1

1 摘要

LLMs智能体在交互式和自主环境中解决复杂任务时越来越关键。

现有工作主要侧重于通过从更强的专家那里进行行为克隆来提高性能，但这种方法在实际应用中往往会失败，主要是因为无法从错误中恢复。

然而，逐步的批判性数据收集难度大且成本高昂。

因此，自动化和动态构建自我批判数据集对于赋予模型智能体能力至关重要。

这项工作提出了一种迭代自训练框架 Agent-R，使语言智能体能够即时反思。

与传统方法仅根据正确性对行动进行奖励或惩罚不同，本文的方法利用蒙特卡洛树搜索（MCTS）来构建训练样本，从错误轨迹中恢复正确轨迹。

智能体任务反思的一个关键挑战在于需要及时修正，而不是等到一轮行动结束后再修正错误。

为了解决这个问题，提出了一种模型引导的批判构建机制：行动者模型识别失败轨迹中的第一个错误步骤（在其当前能力范围内）。

从该步骤开始，将其与树中具有相同父节点的相邻正确路径进行拼接。

这种策略使模型能够基于其当前策略学习反思，从而提高学习效率。

为了进一步探索这种自我改进范式的可扩展性，本文研究了错误纠正能力和数据集构建的迭代优化。

研究结果表明，这种方法不断提高了模型从错误中恢复的能力，并能够更早或及时地进行错误纠正。

在三个具有代表性的交互式和自主环境中进行的大量实验表明，所提出的框架有效地使智能体能够识别和纠正错误行动，同时避免循环，与基线方法相比性能更优（提高了 5.59%）。

2 背景

LLMs已成为解决交互式和自主环境中复杂任务的基础工具，基于 LLMs 的智能体在需要自主决策、错误纠正和任务优化等能力的场景中应用越来越广泛。

然而，现有方法依赖于从更强的专家那里进行行为克隆，存在显著局限性，由于采用完全正确的轨迹进行训练，难以主动自我纠正错误，导致级联失败和任务性能不佳。

此前有工作提出了依赖明确错误信号或奖励函数进行自我纠正的方法，但主要集中在单轮场景

如代码修复、工具使用和数学推理等，而交互式和自主环境中的任务通常涉及多轮交互，直到终端状态才会显示明确错误信号，并且设计高质量的奖励函数来评判长交互轨迹中的中间行动仍然很困难。

此外，增强交互式和自主环境中错误恢复能力的一个关键瓶颈是缺乏逐步反思数据，传统收集这些数据集的方法需要大量人力进行标注，既耗时又昂贵。

没有强大的反思数据，模型在识别和纠正自身错误方面面临挑战，限制了其作为智能体的效用。

3 贡献

本文首次强调了交互式环境中语言智能体纠错的关键挑战，这一挑战被先前的方法所忽视。
引入了 Agent-R 这一新颖的迭代框架，赋予语言智能体在交互式环境中的自我反思能力。
在三个不同的交互式环境中进行了广泛的实验，证明 Agent-R 显著优于基线方法。

4 技术方案

4.1 第一阶段：模型引导的反思轨迹生成

Agent-R 的整体框架包含两个阶段的流程。

在第一阶段，采用 MCTS 和模型引导的反思机制来构建修正轨迹。

在第二阶段，智能体使用收集到的修正轨迹进行训练。

这两个阶段可以迭代重复。rs 是修正信号，t’ 是坏轨迹和好轨迹之间的转换点，L (0) 是要优化的损失函数。

定义了四种在 Agent-R 中起核心作用的轨迹类型：初始轨迹、坏轨迹、好轨迹和修正轨迹。

初始轨迹是初始的行动和观察序列；

坏轨迹是在初始轨迹基础上延伸了一系列次优行动和观察，导致错误或低奖励结果；

好轨迹则是在初始轨迹上构建，包含最优或高奖励的行动和观察；

修正轨迹通过用好轨迹纠正坏轨迹构建而成。

同时定义了奖励条件，以确保坏轨迹能有效纠正为好轨迹，且修正轨迹的质量与好轨迹匹配。

利用蒙特卡洛树搜索（MCTS）收集修正轨迹。从初始根节点开始，MCTS 通过选择、扩展、模拟和反向传播四个关键阶段，系统地搜索可能的行动路径。

在模拟阶段，使用默认的滚动策略采样未来行动，并进行多次滚动以提高奖励估计和确保轨迹多样性。

在选择阶段，使用 UCT 准则平衡探索和利用。当到达终端节点时，生成轨迹并获得环境给予的最终奖励，通过多次滚动收集不同的轨迹。

为构建修正轨迹，手动设计了十种不同的修正思路，随机采样其中一种连接坏轨迹和好轨迹的片段。

为确定修正轨迹的转换点，提出了一种受人类认知过程启发的模型引导方法。

语言智能体根据行动者模型的当前能力评估自我生成的坏轨迹中的每个行动，检测到错误行动时，将转换点设置为该错误行动的步骤，截断坏轨迹，然后将坏轨迹的修正部分与好轨迹的相应部分组合构建修正轨迹。

4.2 第二阶段：使用修正轨迹进行迭代自训练

在此阶段，目标是使用通过 MCTS 收集的自我生成的修正轨迹训练语言智能体。

智能体通过自我反思动态识别和纠正错误，基于自身经验逐步改进策略。

为解决仅依赖修正轨迹训练可能导致智能体初期难以识别正确轨迹的问题，在训练过程中将修正轨迹与好轨迹混合，并逐渐增加好轨迹收敛到最优轨迹的概率。

同时，结合通用数据集（如 ShareGPT）进行训练，以提高泛化能力。对于基础模型 π_θ，目标是找到最优策略 π_θ(τ|u)，使损失函数 L (θ) 最小化。

为进一步探索方法的稳定性，迭代优化错误纠正能力和数据集构建过程，每次迭代时根据当前行动者模型重新收集模型引导的修正轨迹并进行SFT。

5 实验结果

整体性能提升显著：Agent-R 显著提高了语言智能体在交互式环境中的性能，超过了先进的闭源模型（如 GPT-4o）以及基于专家轨迹训练的智能体（如 AgentLM 和 Agent-Flan），强调了在学习过程中修正错误轨迹的重要性，而非单纯依赖专家数据。

动态反思和早期纠错优势明显：由 Agent-R 构建的轨迹，凭借动态自我反思和早期错误检测机制，实现了更快的恢复和更稳定的学习。

这种早期干预有效阻止了错误的传播，使得模型质量更高，性能优于直接修正方法。

对比学习方法存在局限性：虽然采用对比学习方法（如 ETO）能够提升语言智能体在交互式环境中的性能，但此类方法无法赋予智能体自我反思的能力。

训练轨迹的重要性：通过对比不同训练轨迹的实验发现，使用 Agent-R 的修正轨迹进行迭代SFT能逐步提升模型能力，且在训练过程中混合修正轨迹和最优轨迹可显著提高性能，而仅添加好轨迹到最优轨迹中反而会降低性能。

自我反思能力验证：以 Llama-3.1-8B-Instruct 的测试集失败轨迹为基础进行实验，结果表明使用 Agent - R 修正轨迹训练的智能体，在修正失败轨迹以获得更好最终奖励方面，表现优于直接修正方法。

同时，基于专家轨迹训练或使用对比学习方法的智能体，在自我反思能力上表现不佳，而 GPT - 4o 虽在测试集上表现不如某些智能体，但自我反思能力较好。

错误识别和修正能力增强：测量修正长度的实验结果显示，Agent-R 显著提升了智能体识别轨迹中错误发生的能力

且使用其修正轨迹训练的模型，平均修正长度更短，意味着模型能更高效地调整路径，反映出行动者模型反思能力的增强。

避免陷入循环：对测试集轨迹中重复行动序列长度的测量结果表明，与使用最优轨迹训练相比

使用 Agent-R 的轨迹训练能显著减少智能体陷入死循环的情况，说明此类修正轨迹有助于智能体探索新行动，避免陷入局部循环。

多任务训练更有效：对比多任务训练和单任务训练发现，多任务训练是训练交互式环境中语言智能体的更有效方式，且 Agent-R 收集的轨迹更适合多任务训练，能进一步提升性能。

6 结论

本文解决了交互式环境中语言智能体纠错这一关键挑战，现有依赖专家轨迹的方法未能解决这一问题。

为应对该问题，提出 Agent-R，这是一种迭代自训练框架，使智能体能够在交互式和自主环境中动态反思和纠正其行动。

通过利用蒙特卡洛树搜索和模型引导的反思构建，Agent-R 能够及时修正错误轨迹，显著提高智能体实时从错误中恢复的能力。

在三个交互式环境中的实验表明，Agent-R 不仅增强了错误纠正能力，还防止了循环和次优行为，与基线方法相比性能更优。

此外，将自我生成的修正轨迹整合到训练中提高了智能体的整体性能，并有助于开发更智能、更具自我反思能力的智能体。

这些发现为未来的工作开辟了令人兴奋的途径，特别是在完善自我纠正在基于智能体的系统中作为关键功能的作用方面。

【源码链接】

https://github.com/bytedance/Agent-R

7 如何系统学习掌握AI大模型？

AI大模型作为人工智能领域的重要技术突破，正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口，掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程，需要从基础开始，逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

1. 成长路线图&学习规划

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

这里，我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包，有需要的小伙伴可以微信扫描下方CSDN官方认证二维码，免费领取【保证100%免费】

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。