StepAgent：从小白到大神，过程奖励助力 Agent 进化-CSDN博客

本文链接：https://blog.csdn.net/m0_59164520/article/details/144894676

From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning

作者：Zhirui Deng, Zhicheng Dou 等

单位：Gaoling School of Artificial Intelligence, Renmin University of China等

下图给出此文的的整体逻辑框架。首先，对文章进行一句话总结，然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力，以便读者快速了解文章脉络。

本文研究的是通过逐步强化学习优化 Agent 系统的策略模型。现有的 LLM as Agent 方法主要依赖于LLM的固有知识，或者使用强化学习策略来增强 Agent 解决复杂交互任务的能力。然而，这些方法受到稀疏奖励问题的限制，即现有数据集仅提供每个多步推理链的最终标量奖励，可能导致策略学习的效果和效率低下。为了解决这一问题，本文提出了 StepAgent 优化框架，利用逐步奖励来优化 Agent 的强化学习过程。

StepAgent 的核心思想是模拟新手到专家的学习过程，通过自动构建监督信号来优化 Agent 策略。具体而言，该框架分为两个阶段：检查（Inspection） 和 反思（Reflection）。在检查阶段， Agent 观察专家行为并进行模仿练习，以识别自身与专家之间的能力差距；在反思阶段， Agent 根据练习结果，通过两种策略（隐式奖励强化学习和逆强化学习）生成步骤奖励，再使用 PPO 算法改进策略。

1. 检查阶段：生成步骤级对比数据

在 LLM Agent 任务中， Agent 需与环境交互并多次试错才能得出最终推理结果，传统监督微调方法观察和模仿专家的完整轨迹，并根据最终的环境奖励或人工标注信号进行优化。一方面，模拟完整轨迹需不断与环境交互，该过程顺序进行且无法并行化，需要大量计算时间和资源；另一方面，Agent 同时理解所有专家行为易造成信息过载，难以消化和掌握每个行为的细节，导致学习过程低效。

为克服这些问题，本文让 Agent 逐步骤观察专家行为并进行练习，根据轨迹片段生成步骤级的对比数据。

对于包含步的专家轨迹，在每个动作之后分割轨迹，产生专家轨迹片段，将每个动作视为 Agent 学习目标，即

Agent 确定学习目标后进入练习阶段，基于专家轨迹片段中的状态生成动作。具体来说，对于中的每个轨迹片段，将当前动作之前的序列作为状态，组成 Prompt 让 Agent 生成相应动作，得到 Agent 在每个轨迹片段的决策动作，构成 Agent 的轨迹片段数据：

2. 反思阶段：生成步骤级奖励信号

反思阶段利用专家轨迹片段数据和 Agent 轨迹片段数据，自动生成步骤级的奖励信号，用来直到强化学习算法更新策略模型。本文提出了两种方法来产生步骤奖励，分别为隐式奖励和逆强化学习。

2. 1 隐式奖励

利用 DPO 损失优化 Agent 策略：

通过优化该损失， Agent 策略可逐渐接近专家策略。

2.2 逆强化学习

训练判别器网络区分专家和 Agent 策略与环境交互产生的状态-行动对的数据分布差异，以此作为奖励信号优化 Agent 策略。

1.定义策略的占用度量 ，表示 Agent 采用策略与环境交互过程中产生的状态-行动对的归一化分布：

其中是归一化因子，表示 Agent 在时间处于状态的概率。

2.为准确模仿专家策略，让 Agent 的占用度量接近专家的，采用 Jensen-Shannon散度（JS） 衡量两分布距离，优化目标为：

其中是超参数，是 Agent 策略的 - 折扣因果熵。

3.根据 GAIL，Jensen - Shannon散度可由凸成本函数正则化项表示（在常数偏移和缩放范围内），凸成本函数正则化项定义为：

上述正则化项的最优解表示为：

因此，优化问题可转化为寻找下式的鞍点 :

4.使用从专家和 Agent 轨迹中采样的数据训练判别器网络 ，其主要目标是区分 Agent 策略和专家策略生成的数据分布。当判别器无法区分时， Agent 的占用度量成功匹配专家。判别器网络可作为隐式奖励模型为 Agent 策略提供逐步的奖励信号。

最后，使用生成的过程奖励，指导 PPO 算法对 Agent 策略进行更新。

3. 实验

在 Web 任务、Agent 任务以及 Question - Answering 任务中，StepAgent 的两种变体（Implicit 和 Inverse）在各项评估指标上均表现出色，超越了所有基线方法。

综上所述，StepAgent框架通过观察阶段和反思阶段的逐步监督学习，利用步骤过程奖励有效地改进了LLM代理的策略训练过程。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述