【论文精读-强化学习+大模型】Guiding Pretraining in Reinforcement Learning with Large Language Models

本文提出ELLM方法,通过大语言模型生成基于智能体当前状态的目标,引导强化学习在缺乏外部奖励的环境中进行有效探索。实验显示ELLM在Crafter和Housekeep环境中表现出色,预训练期间能促进常识行为和下游任务性能。然而,该方法对环境特性和语言模型的准确性有依赖,未来可能结合其他奖励机制和领域知识提升性能。
摘要由CSDN通过智能技术生成

论文涉及领域:强化学习+大模型
领域细分:基于知识的内在动机强化学习(KB-IMs)+大语言模型(LLMs)

论文摘要

Reinforcement learning algorithms typically struggle in the absence of a dense, well-shaped reward function. Intrinsically motivated exploration methods address this limitation by rewarding agents for visiting novel states or transitions, but these methods offer limited benefits in large environments where most discovered novelty is irrelevant for downstream tasks. We describe a method that uses background knowledge from text corpora to shape exploration. This method, called ELLM (Exploring with LLMs) rewards an agent for achieving goals suggested by a language model prompted with a description of the agent’s current state. By leveraging large-scale language model pretraining, ELLM guides agents toward human-meaningful and plausibly useful behaviors without requiring a human in the loop. We evaluate ELLM in the Crafter game environment and the Housekeep robotic simulator, showing that ELLM-trained agents have better coverage of common-sense behaviors during pretraining and usually match or improve performance on a range of downstream tasks. Code available at https://github.com/yuqingd/ellm.

强化学习算法通常在缺乏稠密、形状良好的奖励函数的情况下难以发挥作用。内在动机探索方法通过奖励访问新状态或转换的智能体来解决这一局限性,但这些方法在大型环境中的优势有限,因为在这种环境中,发现的大多数新奇事物都与下游任务无关。我们介绍了一种利用文本语料库中的背景知识来塑造探索的方法。这种方法被称为 ELLM(使用 LLMs 进行探索),它能对智能体实现语言模型建议的目标给予奖励,而语言模型则会对智能体的当前状态进行描述。通过利用大规模的语言模型预训练,ELLM 可以引导智能体做出对人类有意义且看似有用的行为,而无需人类参与。我们在 Crafter 游戏环境和 Housekeep 机器人模拟器中对 ELLM 进行了评估,结果表明,在预训练期间,经过 ELLM 训练的智能体具有更好的常识行为覆盖率,而且在一系列下游任务中的表现通常与人类相匹配或有所提高。代码见 https://github.com/yuqingd/ellm。

写作动机

利用基于语言的目标表征和基于语言模型的目标生成,以减轻对特定环境手工编码定义目标分布的支持度和奖励函数 Rint的需求。我们假设,基于语言模型的世界知识将能够自动生成多样化、对人类有意义且对上下文敏感的目标。

传统处理方法

基于内在动机的强化学习可以通过奖励访问新状态或转换的智能体解决缺乏密集、形状良好的奖励函数的问题,但是该方法在大型环境中的优势有限,因为在这种环境中,发现的大多数新奇事物都与下游任务无关。

传统方法的缺陷:内在动机 RL 方法通过基于新颖性、惊喜、不确定性或预测错误的辅助目标来增加奖励解决没有外部定义奖励的情况,并非所有新奇或不可预测的事物都是有用的:嘈杂的电视和树叶的运动可能会带来无限的新奇感,但却不会导致有意义的行为。对于无外在奖励的 RL 智能体来说,仅仅优化其行为是不够的。

做了什么

ELLM对智能体实现语言模型建议的目标给予奖励,而语言模型则会对智能体的当前状态进行描述。用Prompt方法使用LLMs.
实验检验了以下假设:

  • (H1)经过 Prompt 预训练的 LLM 可以生成合理有用的探索性目标,满足第 3.2 节中列出的要求:多样性、常识性和上下文敏感性。
  • (H2) 与不利用 LLM 先验的方法相比,根据这些探索目标训练 ELLM 智能体可提高下游任务的性能。

实现方法

ELLM 使用自回归 LM 生成目标,并使用掩码 LM 建立目标的向量表示。在每个时间步,我们都会通过状态标题器Cobs向 LLM 提示智能体的可用操作列表和当前观察的文本描述,从而获取目标。

奖励函数:通过测量 LLM 生成的目标与智能体在环境中的过渡描述之间的语义相似性来计算给定目标 g 的奖励。

实现细节:

  1. 在Crafter中采用Codex大模型,在Housekeep中采用text-davinci-002 InstructGPT model大模型。
  2. 为了增加新奇偏见,我们还过滤掉了智能体在同一轮次早些时候已经实现的 LM 建议。这可以防止智能体重复探索同一个目标。在附录 L 中,我们将展示这一步骤对该方法的重要性。
  3. 结合了嵌入式语言状态标题 E(Cobs(o)) 的像素观测数据效果更好,且所有变体均采用 DQN 算法进行训练。

实现效果

  • 实验效果-Carfter:ELLM在每一轮次中解锁约 6 个成就,而地面实况奖励 Oracle 为 9 个。它胜过了那些仅专注于生成新颖行为的所有探索方法(APT、RND、Novelty)——它们的平均成就数均不到3。ELLM 不仅专注于新颖性,还生成常识性目标。这提升了在 Crafter 中的探索。
  • 实验效果-Housekeep:在Housekeep四项任务中的三项中,ELLM在预训练期间有更高的成功率,与baseline相比,其覆盖范围更好地与下游任务对齐。而且其前两个任务的预训练成功率更高,由于这两个任务的更高LLM准确性,这种差异显示了LLM不准确性对预训练的影响。

局限性

  1. 通过预训练 LLM 的探索对于在无外在奖励环境中预训智能体非常有用,因为这种环境需要常识行为,而其他探索方法无法捕捉到这些常识行为。在一些环境中,基于目标的探索空间很小,人类的常识无关紧要或无法用语言表达(例如细粒度操作),或者状态信息无法自然地编码为自然语言字符串,这时 ELLM 的帮助就不大了。
  2. LLM 的表现对 Prompt 的选择很敏感。即使提示选择得当,LLM 有时也会出错,这通常是由于特定领域知识的缺失造成的。假否定可能会永久性地阻止智能体学习一项关键技能:例如,在 Crafter 中,LLM 从未建议创建木镐。解决这一局限性有多种途径:
    (1) 将 ELLM 奖励与其他 KB-IM 奖励(如 RND)相结合;
    (2) 用对过去成就的描述(或其他有关环境动态的反馈)来提示 LLM,这样 LLM 就能了解可实现目标的空间;
    (3) 在 LLM 提示中注入领域知识;(4) 根据任务特定数据对 LLM 进行微调。虽然 ELLM 并不依赖于这种领域知识,但如果存在这种信息,则很容易将其纳入其中。
  3. 在一些强化学习环境中,定期查询庞大的LLM可能耗时且昂贵。

潜在应用

类似ELLM的方法也可以用于提出合理的视觉目标或其他状态表示中的目标。(文中使用CLIP将图片生成文字)因此,ELLM可能成为未来工作的平台,该工作将开发更加通用和灵活的策略,将人类背景知识纳入强化学习。

代码仓库

Guiding Pretraining in Reinforcement Learning with Large Language Models

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

chaoql

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值