-
作者:Tongtong Feng, Xin Wang, Zekai Zhou, Ren Wang, Yuwei Zhan, Guangyao Li, Qing Li, WenwuZhu
-
单位:清华大学计算机科学与技术系,悉尼大学计算机科学系,清华大学电子工程系
-
标题:EvoAgent: Agent Autonomous Evolution with Continual World Model for Long-Horizon Tasks
-
原文链接:https://arxiv.org/pdf/2502.05907
主要贡献
-
论文构建了EvoAgent,首个能够通过自我规划、自我控制和自我反思,在各种环境中自主完成多种长期任务的智能体。
-
提出了持续世界模型,能够通过闭环动态不断更新多模态经验池和世界知识,显著提高了智能体在复杂环境中的自主规划和动作控制能力。
-
通过在Minecraft游戏环境中的广泛实验,验证了EvoAgent的优越性。与现有方法相比,EvoAgent在成功率上平均提高了105%,并且减少了超过6倍的无效动作。
-
通过消融研究确认,持续世界模型对性能提升的贡献为72%,表明了持续世界模型在整合连贯知识方面的重要性,并展示了其在长期任务中的有效性。
研究背景
研究问题
论文主要解决的问题是完成开放式环境中的长时任务(Long-Horizon, LH),这是具身智能体的一个重要且困难的挑战。
现有方法依赖于人类创建的数据或课程,缺乏持续更新多模态经验的能力,并且在面对新任务时可能会遇到灾难性遗忘问题,缺乏持续更新世界知识的能力。
研究难点
该问题的研究难点包括:
-
缺乏持续的多模态经验和缺乏持续的世界知识更新。现有方法假设所有训练数据在开始时都可用,这在实际部署后可能不现实。
-
此外,基于强化学习的具身智能体在学习新任务时可能会面临灾难性遗忘,难以跨环境和任务抽象和转移知识。
相关工作
-
具身智能体解决长期任务:
-
长期任务(LH):长期任务是指需要多步骤、复杂的任务,通常涉及持续的规划和决策。这些任务在机器人技术中非常重要,例如物流机器人、手术机器人和灾难救援机器人等。
-
现有方法分类:现有的工作可以分为两类:基于模型的强化学习(MBRL)和基于视觉-语言模型的规划(VLM)。MBRL通过与环境交互来学习预测世界动态,而VLM则利用视觉-语言模型将长期任务分解为层次化的子目标。
-
挑战:这些方法假设对环境的完美知识,依赖于oracle反馈,并假设低级策略的完美执行,这使得在开放世界中适应各种长期任务变得困难。
-
-
持续强化学习(CRL):
-
定义:CRL旨在开发一种永不停止学习的智能体,将学习视为一个无止境的适应过程。
-
现有研究:现有研究主要集中在通过补充神经网络方法来改进工具,如设计新的优化器、构建新架构、使用经验回放防止遗忘、促进显式可塑性或使用来自持续监督学习的正则化技术。
-
挑战:尽管这些方法可以缓解简单任务的知识遗忘问题,但它们缺乏在长期任务和环境中的持续世界知识更新。
-
-
世界模型(WM):
-
基础作用:世界模型是AI系统进行规划和推理的基础模块,它们作为真实环境的模拟器,预测某些动作的未来结果。
-
当前研究:研究主要集中在通过潜在状态表示来理解世界和预测未来动态以进行规划和控制。代表应用包括在MBRL中进行动作搜索、策略优化和两者的结合。
-
挑战:世界模型在防止灾难性遗忘方面存在困难,因为它们在适应新任务时难以保持对先前学习的环境动态的稳定表示。
-
研究基础
强化学习
-
强化学习(RL)的定义:
-
强化学习通常被定义为一个马尔可夫决策过程(MDP),由状态空间 、动作空间 、转移动态 、奖励函数 和折扣因子 组成。
-
目标是学习一个策略 ,以最大化期望累积奖励。
-
-
基于模型的强化学习(MBRL):
-
在MBRL中,智能体显式地学习一个模型 ,包括一个近似动态模型 和一个奖励模型 ,分别由参数 和 参数化。
-
这些模型通过最小化观测到的转移的经验预测误差进行训练。
-
-
规划与优化:
-
使用学到的模型,智能体执行规划以优化其策略。例如,在值迭代中,状态值函数 通过贝尔曼方程迭代更新。
-
在在线MBRL中,智能体与环境交互迭代进行学习,目标是学习一个序列以最小化模型损失。
-
世界模型
-
循环状态空间模型(RSSM):
-
RSSM是一种经典的世界模型结构,能够从高维观测中预测潜在状态和奖励。
-
它包含六个模块:编码器、序列模型、动态预测器、解码器、奖励预测器和连续预测器。
-
-
RSSM的组成:
-
编码器:将观测 映射到随机潜在状态 ,其中 是确定性RNN状态, 是随机潜在变量。
-
序列模型:给定过去的动作 ,预测这些表示的序列。
-
动态预测器:预测先验潜在状态转移。
-
解码器:从潜在状态重构观测。
-
奖励预测器:预测奖励。
-
连续预测器:预测情节是否继续。
-
-
RSSM的应用:
-
RSSM用于模拟真实环境并从中预测未来的结果,从而支持规划和控制。
-
EvoAgent
框架概述
-
EvoAgent是一个自主进化的智能体框架,旨在通过自我规划、自我控制和自我反思来自动完成各种长视距(LH)任务。
-
EvoAgent包含三个主要模块:记忆驱动的规划器、世界模型(WM)引导的动作控制器和经验启发的反思模块。
-
此外,EvoAgent还包括一个多模态经验池和一个持续世界模型。
记忆驱动的规划器
记忆驱动的规划器 是一个函数,它将当前的多模态状态 、长视距任务 和记忆 映射到一个子任务序列 。
其中, 包括第一人称观察 、智能体的内部状态 (如健康或饥饿)和智能体的资源库 (如工具或资源)。规划器使用大型语言模型(LLM)来生成子任务。具体步骤如下:
-
编码:使用图像标记器(如VQ-GAN)将原始图像、内部状态和资源库编码为token嵌入。
-
投影:使用轻量级投影模块将视觉token映射到与文本嵌入相同的空间。
-
生成:利用LLM的解码器架构生成响应,基于提供的多模态输入token生成混合序列的视觉和文本token。
-
选择:通过线性层和softmax操作将每个嵌入映射到语言词汇的概率分布,并选择得分最高的token作为最终的子任务。
当世界模型引导的动作控制器反馈任务失败时,LLM会使用LoRA进行微调,基于所有记忆进行调整。
WM-引导的动作控制器
WM-引导的动作控制器 是一个函数,它将当前的多模态状态 、子任务 和世界模型 映射到一个动作序列 。
-
动作选择:控制器利用世界模型预测未来状态并优化动作,公式如下:
其中 是目标对齐的奖励函数, 是折扣因子。
-
自我验证:在执行动作后,智能体与环境交互以收集反馈,并使用自我验证机制确定子任务是否可以终止。
-
多模态经验池(MEP):MEP是一个动态存储库,记录智能体与环境交互的经验。每次交互后,经验会被添加到MEP中,以便更新世界模型。
经验启发的反思
经验启发的反思模块 是一个函数,它将当前的多模态状态 、子任务 和多模态经验 映射到更新后的世界模型 。
反思模块采用两阶段课程学习机制来优化经验选择,然后更新世界模型以缓解历史遗忘:
-
两阶段课程学习机制:
-
阶段1:课程子任务选择:根据子任务与当前目标任务的关联性、效率比、重要性和完成率来选择子任务。
-
阶段2:课程经验选择:在选定的子任务中,根据时间差误差(TD-Error)、梯度范数和信息增益来选择经验。
-
-
世界模型更新:使用课程指导的经验更新世界模型,公式如下:
其中 强调关键经验, 用于惩罚对过去任务至关重要的参数偏移。
持续世界模型
-
持续世界模型包括一个多模态经验池和一个世界模型。
- 通过闭环动态的自我规划、自我控制和自我反思,EvoAgent可以不断更新多模态经验池和世界知识,过滤无效探索并缓解历史遗忘,从而实现更好的自主规划和动作控制:
-
规划:记忆驱动的规划器根据当前状态、任务和记忆生成子任务。
-
控制:世界模型引导的动作控制器根据当前状态、子任务和世界模型生成动作序列。
-
执行:智能体执行动作并与环境交互,收集反馈。
-
反思:经验启发的反思模块根据交互经验更新世界模型。
-
更新:持续世界模型通过闭环动态更新多模态经验池和世界知识。
-
实验
实验设置
-
环境:
-
Minecraft:使用Minecraft游戏作为实验环境,因为它是一个受欢迎的开放世界游戏,具有多样化的生物群系和丰富的交互元素。
-
模拟环境:使用MineRL 0.4.4作为模拟环境,智能体以每秒20帧的速度操作,并通过鼠标和键盘的低级动作控制信号与环境交互。
-
-
基准:
-
Optimus-1基准:使用Optimus-1构建的基准来评估EvoAgent框架。Optimus-1提供了一个包含67个任务的基准,用于评估智能体在跨环境完成长期任务的能力。
-
任务分组:将67个Minecraft任务分为7组,按照Minecraft推荐的类别进行分组。
-
基线比较
-
PPO:使用Proximal Policy Optimization(PPO)作为基线之一,展示模型自由方法的性能。
-
GPT-4V:使用GPT-4V作为另一个基线,展示纯视觉-语言模型的能力。
-
Jarvis-1:使用Jarvis-1作为基线,展示基于记忆增强的多任务智能体的性能。
-
Dreamerv3:使用Dreamerv3作为基线,展示基于视觉-语言模型的规划能力。
-
Optimus-1:使用Optimus-1作为基线,展示混合多模态记忆增强智能体的性能。
实验结果
-
成功率(SR):EvoAgent在所有资源层级上均表现出色,特别是在高级任务(如Gold和Diamond)上,成功率显著高于现有方法。EvoAgent的平均成功率比现有方法提高了105%。
-
探索效率(EE):EvoAgent在探索效率上也表现出色,特别是在Gold和Diamond任务上,探索效率比Optimus-1高出数倍,表明其在稀疏奖励场景中减少了无效动作。
结果分析
-
基本任务:在Wood和Stone任务上,EvoAgent的表现略优于Optimus-1,但在高级任务上表现出更大的优势。
-
模型自由方法和纯视觉-语言模型:PPO和GPT-4V在需要工具层次的任务上完全失败,显示出它们在建模潜在状态转换方面的局限性。
-
Jarvis-1和Dreamerv3:这些方法在中等任务上取得了一定的成功,但在Gold和Diamond任务上表现不佳,显示出在长期任务中维持连贯多阶段策略的困难。
总结
论文提出了EvoAgent,具有持续世界模型的自主进化智能体,能够通过自我规划、自我控制和自我反思自主完成长时任务。
尽管总体成功率为30.29%,但在高级任务上的绝对成功率仍然较低,表明环境中存在未解决的随机性问题。