开放世界中的持续学习！EvoAgent：世界模型驱动的面向长期任务的自主进化智能体

最新推荐文章于 2025-05-18 20:17:36 发布

视觉语言导航

最新推荐文章于 2025-05-18 20:17:36 发布

阅读量804

点赞数 15

分类专栏：具身智能benchmark 文章标签：人工智能具身智能机器人深度学习

本文链接：https://blog.csdn.net/weixin_37990186/article/details/145681472

版权

具身智能benchmark 专栏收录该内容

19 篇文章

订阅专栏

作者：Tongtong Feng, Xin Wang, Zekai Zhou, Ren Wang, Yuwei Zhan, Guangyao Li, Qing Li, WenwuZhu
单位：清华大学计算机科学与技术系，悉尼大学计算机科学系，清华大学电子工程系
标题：EvoAgent: Agent Autonomous Evolution with Continual World Model for Long-Horizon Tasks
原文链接：https://arxiv.org/pdf/2502.05907

主要贡献

论文构建了EvoAgent，首个能够通过自我规划、自我控制和自我反思，在各种环境中自主完成多种长期任务的智能体。
提出了持续世界模型，能够通过闭环动态不断更新多模态经验池和世界知识，显著提高了智能体在复杂环境中的自主规划和动作控制能力。
通过在Minecraft游戏环境中的广泛实验，验证了EvoAgent的优越性。与现有方法相比，EvoAgent在成功率上平均提高了105%，并且减少了超过6倍的无效动作。
通过消融研究确认，持续世界模型对性能提升的贡献为72%，表明了持续世界模型在整合连贯知识方面的重要性，并展示了其在长期任务中的有效性。

研究背景

研究问题

论文主要解决的问题是完成开放式环境中的长时任务（Long-Horizon, LH），这是具身智能体的一个重要且困难的挑战。

现有方法依赖于人类创建的数据或课程，缺乏持续更新多模态经验的能力，并且在面对新任务时可能会遇到灾难性遗忘问题，缺乏持续更新世界知识的能力。

研究难点

该问题的研究难点包括：

缺乏持续的多模态经验和缺乏持续的世界知识更新。现有方法假设所有训练数据在开始时都可用，这在实际部署后可能不现实。
此外，基于强化学习的具身智能体在学习新任务时可能会面临灾难性遗忘，难以跨环境和任务抽象和转移知识。

研究基础

强化学习

强化学习（RL）的定义：
- 强化学习通常被定义为一个马尔可夫决策过程（MDP），由状态空间、动作空间、转移动态、奖励函数和折扣因子组成。
- 目标是学习一个策略，以最大化期望累积奖励。
基于模型的强化学习（MBRL）：
- 在MBRL中，智能体显式地学习一个模型，包括一个近似动态模型和一个奖励模型，分别由参数和参数化。
- 这些模型通过最小化观测到的转移的经验预测误差进行训练。
规划与优化：
- 使用学到的模型，智能体执行规划以优化其策略。例如，在值迭代中，状态值函数通过贝尔曼方程迭代更新。
- 在在线MBRL中，智能体与环境交互迭代进行学习，目标是学习一个序列以最小化模型损失。

世界模型

循环状态空间模型（RSSM）：
- RSSM是一种经典的世界模型结构，能够从高维观测中预测潜在状态和奖励。
- 它包含六个模块：编码器、序列模型、动态预测器、解码器、奖励预测器和连续预测器。
RSSM的组成：
- 编码器：将观测映射到随机潜在状态，其中是确定性RNN状态，是随机潜在变量。
- 序列模型：给定过去的动作，预测这些表示的序列。
- 动态预测器：预测先验潜在状态转移。
- 解码器：从潜在状态重构观测。
- 奖励预测器：预测奖励。
- 连续预测器：预测情节是否继续。
RSSM的应用：
- RSSM用于模拟真实环境并从中预测未来的结果，从而支持规划和控制。

EvoAgent

框架概述

EvoAgent是一个自主进化的智能体框架，旨在通过自我规划、自我控制和自我反思来自动完成各种长视距（LH）任务。
EvoAgent包含三个主要模块：记忆驱动的规划器、世界模型（WM）引导的动作控制器和经验启发的反思模块。
此外，EvoAgent还包括一个多模态经验池和一个持续世界模型。

记忆驱动的规划器

记忆驱动的规划器是一个函数，它将当前的多模态状态、长视距任务和记忆映射到一个子任务序列。

其中，包括第一人称观察、智能体的内部状态（如健康或饥饿）和智能体的资源库（如工具或资源）。规划器使用大型语言模型（LLM）来生成子任务。具体步骤如下：

编码：使用图像标记器（如VQ-GAN）将原始图像、内部状态和资源库编码为token嵌入。
投影：使用轻量级投影模块将视觉token映射到与文本嵌入相同的空间。
生成：利用LLM的解码器架构生成响应，基于提供的多模态输入token生成混合序列的视觉和文本token。
选择：通过线性层和softmax操作将每个嵌入映射到语言词汇的概率分布，并选择得分最高的token作为最终的子任务。

当世界模型引导的动作控制器反馈任务失败时，LLM会使用LoRA进行微调，基于所有记忆进行调整。

WM-引导的动作控制器

WM-引导的动作控制器是一个函数，它将当前的多模态状态、子任务和世界模型映射到一个动作序列。

动作选择：控制器利用世界模型预测未来状态并优化动作，公式如下：

其中是目标对齐的奖励函数，是折扣因子。

自我验证：在执行动作后，智能体与环境交互以收集反馈，并使用自我验证机制确定子任务是否可以终止。
多模态经验池（MEP）：MEP是一个动态存储库，记录智能体与环境交互的经验。每次交互后，经验会被添加到MEP中，以便更新世界模型。

经验启发的反思

经验启发的反思模块是一个函数，它将当前的多模态状态、子任务和多模态经验映射到更新后的世界模型。

反思模块采用两阶段课程学习机制来优化经验选择，然后更新世界模型以缓解历史遗忘：

两阶段课程学习机制：
- 阶段1：课程子任务选择：根据子任务与当前目标任务的关联性、效率比、重要性和完成率来选择子任务。
- 阶段2：课程经验选择：在选定的子任务中，根据时间差误差（TD-Error）、梯度范数和信息增益来选择经验。
世界模型更新：使用课程指导的经验更新世界模型，公式如下：

其中强调关键经验，用于惩罚对过去任务至关重要的参数偏移。

持续世界模型

持续世界模型包括一个多模态经验池和一个世界模型。
通过闭环动态的自我规划、自我控制和自我反思，EvoAgent可以不断更新多模态经验池和世界知识，过滤无效探索并缓解历史遗忘，从而实现更好的自主规划和动作控制：
- 规划：记忆驱动的规划器根据当前状态、任务和记忆生成子任务。
- 控制：世界模型引导的动作控制器根据当前状态、子任务和世界模型生成动作序列。
- 执行：智能体执行动作并与环境交互，收集反馈。
- 反思：经验启发的反思模块根据交互经验更新世界模型。
- 更新：持续世界模型通过闭环动态更新多模态经验池和世界知识。

实验

实验设置

环境：
- Minecraft：使用Minecraft游戏作为实验环境，因为它是一个受欢迎的开放世界游戏，具有多样化的生物群系和丰富的交互元素。
- 模拟环境：使用MineRL 0.4.4作为模拟环境，智能体以每秒20帧的速度操作，并通过鼠标和键盘的低级动作控制信号与环境交互。
基准：
- Optimus-1基准：使用Optimus-1构建的基准来评估EvoAgent框架。Optimus-1提供了一个包含67个任务的基准，用于评估智能体在跨环境完成长期任务的能力。
- 任务分组：将67个Minecraft任务分为7组，按照Minecraft推荐的类别进行分组。

基线比较

PPO：使用Proximal Policy Optimization（PPO）作为基线之一，展示模型自由方法的性能。
GPT-4V：使用GPT-4V作为另一个基线，展示纯视觉-语言模型的能力。
Jarvis-1：使用Jarvis-1作为基线，展示基于记忆增强的多任务智能体的性能。
Dreamerv3：使用Dreamerv3作为基线，展示基于视觉-语言模型的规划能力。
Optimus-1：使用Optimus-1作为基线，展示混合多模态记忆增强智能体的性能。

实验结果

成功率（SR）：EvoAgent在所有资源层级上均表现出色，特别是在高级任务（如Gold和Diamond）上，成功率显著高于现有方法。EvoAgent的平均成功率比现有方法提高了105%。
探索效率（EE）：EvoAgent在探索效率上也表现出色，特别是在Gold和Diamond任务上，探索效率比Optimus-1高出数倍，表明其在稀疏奖励场景中减少了无效动作。

结果分析

基本任务：在Wood和Stone任务上，EvoAgent的表现略优于Optimus-1，但在高级任务上表现出更大的优势。
模型自由方法和纯视觉-语言模型：PPO和GPT-4V在需要工具层次的任务上完全失败，显示出它们在建模潜在状态转换方面的局限性。
Jarvis-1和Dreamerv3：这些方法在中等任务上取得了一定的成功，但在Gold和Diamond任务上表现不佳，显示出在长期任务中维持连贯多阶段策略的困难。