【论文精读】让智能体更聪明的LTC框架

图片

深究语言导向智能,洞悉智能体交互与学习的精髓。

©作者|Zhongmei

来源|神州问学

引言

随着大语言模型(LLMs)的兴起,展现了强大的智能体(Agent)潜力,越来越多地被用作与外部环境(例如游戏、编译器、APIs)交互的目标驱动代理。在近期的LLM研究进展中,越来越多的实验探索是围绕着拟人智能体展开的,除了提示(Prompt)的设计,还关注如何利用外部环境中语言反馈和非语言奖励信号来训练大模型智能体。语言反馈通常作为指令数据对大模型进行指令微调(Instruction Fine-tuning),非语言奖励信号则是用于与人类偏好对齐。现实场景中的反馈往往是多样的,而现存的方法通常只能部分利用。例如:在多人角色扮演桌游中,玩家交互中产生了大量的语言数据,同时游戏中会有明确的非语言奖励信号(比如胜利或失败),现有方法中,都是使用语言数据进行指令微调,而奖励信号仅用作过滤标准,用于筛选用于指令微调的数据,而不是强化学习的目标。为了弥补这一缺陷,研究者们提供了一个名为 

LTC(Learning through Communication沟通学习)的通用框架,用于促进LLM Agent兼具语言反馈和非语言奖励信号的训练。

论文标题:

 Adapting LLM Agents with Universal Feedback in Communication【在沟通中通过通用反馈调整大语言模型智能体】

论文链接:

https://arxiv.org/pdf/2310.01444.pdf

LTC框架介绍

1.  LTC的核心理念

在LTC框架中,研究者们设计了一个通用缓冲区来存储所有的反馈,并建立了一个迭代流程,这种迭代流程使得LLM智能体能在特定环境中探索和更新其策略。每次迭代包括两个不同的阶段 (图1):

图片

图1. LTC 迭代的两阶段框架。在探索阶段,Agent积极探索环境并与其他Agent交互、收集轨迹以更新缓冲区。然后在更新阶段,训练Agent更新策略。

1.  探索阶段:在此阶段,智能体与环境及其他智能体互动,收集多样的轨迹(语言型)和奖励信号(非语言型)到通用缓冲区。

2.  更新阶段:根据通用缓冲区中收集到的数据更新智能体模型。更新时,LTC 将语言建模损失和 PPO 损失相结合,并在语言一致性和奖励信号偏好之间取得平衡。通用缓冲区作为迭代流程的枢纽,在每个探索阶段后从缓冲区中抽样更新。

图片

图2. 在这单智能体环境(左)中和多智能体环境(右)中,LTC框架都适用,智能体能够持续地进行探索和互动,通过各种沟通模式收集轨迹。同时,LTC还促进利用从探索活动中获得的数据来训练这些智能体。这一过程使得智能体能够自主适应各自的环境,无需人类监督。

在探索阶段中,为收集到足够通用的交流轨迹和奖励信号,作者们设计了三种结构化沟通模式:

(1)  单智能体独白式

(Single-agent Monologue):单个智能体以独白的形式,生成包含语言数据的轨迹,并从环境中获得互动反馈,接收奖励信号。

(2)  多智能体对话式

(Multi-agent Dialogue):多个代理相互交互、与外部工具交互,收集语言类数据,同时利用环境中产生的奖励信号。

(3)  师生对话式

(Teacher-student Dialogue):是多智能体对话式的变体,该模式下,收集的语言类反馈和非语言奖励信号都是有老师智能体提供的,而不是环境。

  2.  LTC框架的亮点

(1)  通过沟通学习

(Learning through Communication): 作者们提出了一个名为“通过沟通学习”(LTC)的通用框架,可以同时使用语言反馈和非语言奖励信号。在这个框架下,一个通用缓冲区被用于存储所有反馈,同时还有一个迭代流程,使 LLM 智能体在给定环境中探索和更新行动策略。

(2)  针对任务的沟通模式

(Task-specific Communication Patterns):LTC 范式允许针对不同任务的沟通模式的灵活设计,作者们引入了三种特定的沟通模式:单智能体独白式、多智能体对话式以及师生对话式。这三种模式可以结合起来,为智能体训练生成足够多样的结构化互动和反馈信号,以利于智能体适应各种任务类型。

(3)  实证研究与发现:作者们在四个不同的公开基准任务数据集上严格的评估了LTC框架的有效性,包括:ALFWorld(单智能体独白)、HotpotQA(多智能体合作)、Chameleon(多智能体竞争)和GSM8k(师生对话式)。在这些数据集上,LTC框架训练的智能体表现明显优于指令微调或提示基线,提高了3.6%到12%,证明LTC在促进智能体的在线适应方面有效性。

3.  LTC框架具体情况

1.  探索阶段

在每次迭代的开始,代理会探索环境以获取轨迹和奖励信号数据。这些数据会被表示为一个元组:S = (T, M, R),其中 T = {t1, t2, ..., tn} 表示代理探索过程中通过沟通生成的文本数据,M (Mask)= {m1, m2, ..., mn} 其中 mi ∈ {0, 1, 2} 表示文本数据的来源(系统或智能体们),R(Reward) = {r1, r2, ..., rn} 其中 ri ∈ {-1, 0, 1} 表示由系统或其他智能体提供的奖励信号。图3展示了这种数据结构的细节,M 是掩码(Mask)列表,R 是奖励(Reward)列表。在基于策略的强化学习算法 PPO 训练中,值(Value)列表和对数似然(Log-pro)列表直接对应于行动(Action)列表。所以为简洁起见,这三个列表被统称为 T。

图片

图3. 缓冲区数据是一系列整数(Int)或浮点数(Float)序列。在强化学习公式中,每个token ID 被视为是行动(Action)。为记录每个token的来源,对应的掩码(Mask)同时会被保存起来。同时被保存的还有:PPO算法中Critic Model的值(Value),采样行动时的对数似然(log-prob),以及来自环境或其他智能体的奖励(Reward)

针对上文提到的三种独特的沟通方式,有不同的收集轨迹数据 S = (T, M, R)

1)  单智能体独白式

独白式沟通模式的设计是用于一般的指令遵循任。这个模式下,单个智能体基于ReAct和CoT方法,将任务分解成逐步的,在探索的同时收集包含系统奖励的自身轨迹进行训练。图1左侧展示得就是这种方式。

2)  多智能体对话式

多智能体讨论模式的设计用于多智能体协作和竞争任务。这个模式下,多个智能体按照指定顺序通过发言或行动扮演自己的角色设定,最终奖励由环境根据智能体的表现给出。图4中,左图用于说明协作模式,其中GPT-4 智能体扮演思考者,负责分析情况,并向负责做出决策的行动智能体提供建议;奖励信号则是两个智能体获得的答案的正确性。回忆一下图1,右图则展示了竞技任务,其中的三个智能体分别扮演不同的角色,奖励信号就是游戏的胜负结果。智能体们的任务就是在沟通过程中进行推理和虚张声势以赢得比赛。

图片

图4. 多智能体对话式中协作模式:GPT-4 智能体扮演思考者,负责分析情况,并向负责做出决策的行动智能体提供建议(左);师生对话式:学生智能体对现有问题做出初始回答,老师智能体直接给出答案和对应的奖励信号;为了帮助学生真正能力提升,而不只是记住答案,老师智能体会再给出一个类似的问题,学生智能体回答新问题后,老师智能体会给出新的奖励信号

3)  师生对话式

师生对话式的设计用于师生任务,适用于强大的智能体教导新手智能体。这个模式是为类似数值推理等复杂分析任务设计的,因为这些任务需要大量的分析示例来帮助智能体提高预训练模型中缺乏的特定推理能力。师生对话模式有学生和教师角色,分别由两个智能体扮演。除了语言反馈外,教师智能体还直接提供非语言奖励信号,这是该模式独特地方,因为奖励信号在之前两个模式中都是由系统(环境)提供。图 4 右图展示了作业批改方式下学生智能体和与教师智能体的沟通。在数学问题环境中,学生智能体对现有问题做出初始回答,老师智能体直接给出答案和对应的奖励信号;为了帮助学生提高能力,而不仅仅是记住解决方案,老师智能体会再给出一个类似的问题并为学生提供新的奖励。 

2.  更新阶段

在更新阶段中,会利用在探索阶段中收集的会话记录,对 LLM Agent模型进行优化。对于一个给定的示例会话 S = (T, M, R),主要有两个训练目标:

(1)  语言模型目标:大语言模型使得智能体可以从轨迹T中学习,以无监督的学习方式,从其他智能体的响应或系统环境反馈中克隆行为。记为LLM(T) 。

(2)  强化目标:强化目标记为Lreinforce,通过最大化环境或教师智能体提供的奖励信号的期望来优化模型。这是一个结果导向的目标,允许智能体模型从沟通会话中的正负信号进行学习。

综上所述,LTC 框架的整体训练目标结合了上述两项目标:

LLTC(S) = βLLM(T) + Lreinforce(S),

其中 β 是一个平衡超参数。先前用于优化 Lreinforce(S)是PPO算法,PPO 算法采用三元组(状态、行动、奖励)进行训练。基于这种情况,每次更新时,会从轨迹中取样,用以模拟状态-行动对,其中值得注意的是,只有智能体模型本身产生的token作为策略更新的Action。

LTC实验设计

实验测试集

实验在四个不同的测试集上进行,每个数据集对应一个不同的环境,组合分别是:单智能体独白式- ALFWorld,多智能体协作式-HotpotQA,多智能体竞争对抗式- Chameleon以及师生对话式- GSM8k。

1.  ALFWorld: 

ALFWorld是一个遵循 ALFRED 基准的文本游戏。这个游戏设定于家庭环境中,通过文本探索,智能体需要完成六种类型的任务。游戏中有超过 50 个地点可供探索,这些任务要求战略性规划和彻底的探索。实验中,该数据集里面的3553 个环境训练集被来训练模型和基线测试,其他134个未见的环境测试集用来评估实验结果。

2.  HotpotQA 

HotpotQA 是一个问答数据集,侧重于基于事实的多跳推理,目的是提高 QA 系统的可解释性。在这个数据集中,智能体需要在两个或更多的维基百科段落之间,进行推理得出答案。在初始环境中,智能体们被提供问题和任务的描述,但无法访问支持推理的段落,这样智能体只能依赖于大模型内部知识或者外部维基百科工具检索出的信息。在训练时,作者们从90,447 对问答对中取样环境,而评估时则是从测试集中随机取样 500 个示例。

3.  Chameleon 

Chameleon 是由 ChatArena实现的多人社交推理游戏环境(类似我是卧底)。游戏中有两种角色,变色龙和非变色龙。首先会向所有玩家揭示秘密词的主题。然后,秘密词将被非变色龙知晓。非变色龙试图识别出变色龙,同时不泄露秘密词,而变色龙则试图融入并猜出这个词。游戏包括给出线索、投票猜测谁可能是变色龙,以及被选出的变色龙的秘密词猜测。游戏玩家数范围为[3, 4, 5] 来训练和测试代理人的表现。

4.  GSM8k 

GSM8k 数据集是为小学生设计的 8.5K 道数学问题的集合。这些数学题由人类专家精心制作,以确保语言多样性;主要关注基本的算术运算,如加减乘除;每个问题都需要 2 到 8 步的推理才能得出解决方案。数据集分为两个部分:7.5K 问题用于训练,1K 问题用于测试;

实验设置

1.  模型架构

基础模型是在Llama基础上进行修改:为了生成与动作token相对应的状态值,引入了一个额外的线性层作为注意力多头中的value头。这个value头充当辅助输出模块,为确保在强化学习中输出值的范围在(-1, 1)内,输出值通过tanh()函数处理。

2.  智能体预训练 

智能体预训练是基于Llama-7B。这一步骤至关重要,因为原始的Llama-7B在没有经过指令微调的情况下,难以遵循任务指令并在环境中生成合理的行动。所以通过指令微调来初始化它,这个初始化的智能体也是公平比较的基线。为收集指令微调数据,使用了GPT3/4作为智能体来探索训练集创建的环境,过滤掉负面实例,保留正面样本用于训练。其中对于ALFWorld和HotpotQA数据集,利用的是GPT3(text-davinci-003)。然而,对于GSM8k数据集,由于GPT3在处理数学问题方面的表现不足,导致正面例子稀缺,所以改用GPT4。

3.  训练细节 

参数设计:AdamW优化器,batch size为32。learning rate设为2e-4。在每次迭代中,智能体探索的新环境大小分别是:ALFWorld为256,GSM8k为512,HotpotQA为1024。使用的是Lora参数高效微调,超参数设置为R = 16和α = 16。对于分布式训练,在HotpotQA和GSM8k上使用4个节点和8×A100 GPUs。对于在ALFWorld上的实验,由于数据集规模较小,使用1个节点和2×A100 GPUs。

4.  基线 

LTC训练的智能体被用于与现有的提示和指令调整方法进行比较,包括ReAct、ReAct-IM、CoT、CoT-SC、BUTLER 。但是这些方法大多都是关注在few-shot prompting而且使用了不同的预训练模型。所以为了确保公平比较,引入多了两个基线,被命名为ReAct-Tuning and CoT-Tuning,是利用收集到的轨迹作为微调数据对Llama-7B模型进行微调得到的。

LTC效果

实验结果表明,LTC 一贯地优于基线。

在 ALFWorld 中,即使在挑战性的Pick Two & Place任务(例如,“把两支铅笔放在抽屉里”)上,LTC 也比已经比较强大的指令微调基线高出 12% 的成功率。【注:Pick Two任务要求智能体在一个任务中执行两次“拾取和放置”的动作序列,同时记住所需行动类型和物体位置。组合的序列和记忆前一个位置的需要使这个任务具有挑战性。这可能是基线在此任务上成功率较低的原因。】这表明LTC使智能体能够从其经验中学习以解决任务。在 HotpotQA 上,LTC在精确匹配(EM)得分比指令调整基线高出 5%,基于 Llama-7B 的智能体甚至比使用体量是其9倍的PaLM-62B 的 ReAct-Tuning 基线表现略好(0.6%)。在Chameleon上,LTC在对抗GPT-4玩家的胜率上比指令调整基线高出3.1%。【在训练中,所有玩家都由当前训练的相同的Llama2-7B模型扮演。而在测试中,为了得到我们训练后的智能体对抗GPT4的胜率,随机选择1个玩家使用训练智能体作为后端,其他玩家由GPT4扮演。我们可以看到,随着玩家数量的增加,LTC代理的胜率有所提高,作者们解释为因为玩家越多,GPT4玩家控制比赛的机会就越高。】在 GSM8k 上,LTC 也以 3.6% 的准确度优于 CoT-Tuning 基线。这些结果突显了 LTC 方法在不同领域的适应性和有效性。

未来展望

正如引言中贴出的吴恩达的X截图,智能体值得每一个从事AI的人群重视,但是现有尝试中,似乎智能体表现并不足够优秀和稳定。幸运的是,越来越多的学者们开始专注于针对智能体表现的模型微调。期待未来智能体真的可以颠覆人类现有的认知。

  • 7
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值