《针对长时程任务具有持续世界模型的自主进化智能体》
Paper:EvoAgent: Agent Autonomous Evolution with Continual World Model for Long-Horizon Tasks
创新性
- 自主演化能力:EvoAgent是第一个能够自主完成各种长时任务(LH)的自主演化代理,无需人类干预。
- 持续世界模型:提出了一种新的持续世界模型(WM),能够通过闭环动态不断更新多模态经验池和世界知
识。 - 模块化设计:EvoAgent包含三个模块:记忆驱动的规划器、世界模型引导的动作控制器和经验启发的反射器,每个模块都有明确的功能和相互作用。
- 两阶段课程学习机制:通过两阶段课程学习算法选择经验以进行任务自适应的世界模型更新,优化了经验选择。
- 实验验证:在Minecraft上进行的大量实验表明,EvoAgent相比现有方法在平均成功率上提高了105%,并将无效动作减少了超过6倍。
研究背景
- 研究问题:这篇文章要解决的问题是完成开放式环境中的长时任务(Long-Horizon,LH),这是具身智能体在开放世界中面临的一个重要且困难的问题。
- 研究难点:该问题的研究难点包括:现有方法依赖于人类创建的数据或课程,缺乏持续更新多模态经验的能力;在面对新任务时,可能会遇到灾难性遗忘问题,缺乏持续更新世界知识的能力。
- 相关工作:该问题的研究相关工作有:基于模型的强化学习(MBRL)、视觉语言模型(VLM)规划、以及世界模型(WM)的研究。然而,这些方法在处理开放式环境中的长时任务时存在局限性,特别是在持续更新世界知识和多模态经验方面。
研究方法
这篇论文提出了EvoAgent,一种具有持续世界模型(WM)的自主进化智能体,用于解决长时任务问题。具体来说,
- 记忆驱动的规划器:该规划器利用大型语言模型(LLM)、世界模型和交互记忆,将长时任务转换为可执行的子任务。公式如下:
Ψ
plan
:
S
×
T
×
D
MEP
all
→
G
\Psi_{\text{plan}}:\mathcal{S}\times\mathcal{T}\times\mathcal{D} {\text{MEP}}^{\text{all}}\rightarrow\mathcal{G}
Ψplan:S×T×DMEPall→G
其中, S \mathcal{S} S表示当前多模态状态, T \mathcal{T} T表示长时任务, D MEP all \mathcal{D} {\text{MEP}}^{\text{all}} DMEPall表示所有记忆, G \mathcal{G} G表示子任务序列。
- WM引导的动作控制器:该控制器利用世界模型生成低级动作,并包含自我验证机制以更新多模态经验。公式如下:
Π a c t : S × G × M w → A \Pi_{act}:\mathcal{S}\times\mathcal{G}\times\mathcal{M}{w}\rightarrow\mathcal{A} Πact:S×G×Mw→A
其中, S \mathcal{S} S表示当前多模态状态, G \mathcal{G} G表示子任务, M w \mathcal{M}{w} Mw表示世界模型, A \mathcal{A} A表示动作序列。 - 经验启发的反射器:该反射器实现了一个两级课程学习算法,以选择经验以进行任务自适应的世界模型更新。公式如下:
Φ
reflect
:
S
×
G
×
D
MEP
×
M
w
→
M
w
′
\Phi_{\text{reflect}}:\mathcal{S}\times\mathcal{G}\times\mathcal{D} {\text{MEP}}\times\mathcal{M}{w}\rightarrow\mathcal{M}{w}^{\prime}
Φreflect:S×G×DMEP×Mw→Mw′
其中, S \mathcal{S} S表示当前多模态状态, G \mathcal{G} G表示子任务, D MEP \mathcal{D}{\text{MEP}} DMEP表示多模态经验, M w \mathcal{M}{w} Mw表示世界模型, M w ′ \mathcal{M}{w}^{\prime} Mw′表示更新的世界模型。
此外,论文还提出了一种新的持续世界模型,通过闭环动态不断更新多模态经验池和世界知识。
实验设计
- 数据收集:实验在Minecraft环境中进行,使用MineRL0.4.4作为模拟环境。Minecraft是一个程序生成的3D世界,包含不同的生物和资源。
- 实验设置:智能体以每秒20帧的速度操作,仅通过鼠标和键盘的低级动作控制信号与环境交互。
- 基准测试:使用Optimus-1构建的67个长时任务基准测试来评估EvoAgent框架。任务分为7组,分别是木材、石头、铁、金和钻石。
- 对比方法:与PPO、GPT-4V、Jarvis-1、Dreamerv3和Optimus-1等方法进行对比。所有智能体初始时都有一个空的多模态经验池,除了PPO和Jarvis-1在其初始状态中有工具。
结果与分析
- 总体结果:EvoAgent在所有资源层级上均达到了最先进的成功率(SR)和探索效率(EE)。与现有方法相比,EvoAgent的平均成功率提高了105%,并将无效动作减少了6倍以上。
- 任务完成情况:在基本任务(木材/石头)上,EvoAgent略优于Optimus-1(木材97.47% vs.96.39% SR),在高级任务(金/钻石)上表现出显著优势(金21.69% vs. 10.62%SR,钻石17.36% vs. 9.30% SR)。
- 探索效率:在金任务上,EvoAgent的30.48%EE比Optimus-1高出3.8倍,表明在稀疏奖励场景中大幅减少了无效动作。
- 消融研究:单独使用PPO的规划模块几乎无法解决资源层级中的探索瓶颈(木材28.16%SR),引入控制模块后性能显著提升(木材92.42%SR),结合反射模块后效果更好(木材96.69% SR,铁42.61%SR),完整系统(持续WM)进一步提升了性能(钻石17.36% SR)。
总体结论
这篇论文提出了EvoAgent,一种具有持续世界模型的自主进化智能体,能够在无人干预的情况下通过自我规划、自我控制和自我反思自动完成长时任务。实验结果表明,EvoAgent在所有资源层级上均达到了最先进的成功率,并且在稀疏奖励场景中表现出显著的优势。未来的工作将集中在动态风险感知的世界模型和不可逆动作的元推理上。
简历包装
问题1:EvoAgent的三个主要模块(记忆驱动的规划器、WM引导的动作控制器、经验启发的反射器)是如何相互协作的?
- 记忆驱动的规划器:利用大型语言模型(LLM)、世界模型和交互记忆,将长时任务转换为可执行的子任务。具体来说,规划器将当前多模态状态、长时任务和所有记忆作为输入,生成子任务序列。
- WM引导的动作控制器:利用世界模型生成低级动作,并包含自我验证机制以更新多模态经验。控制器根据当前多模态状态、子任务和世界模型,生成动作序列,并通过与环境交互收集反馈,验证子任务的完成情况。
- 经验启发的反射器:实现了一个两级课程学习算法,以选择经验以进行任务自适应的世界模型更新。反射器根据当前多模态状态、子任务和多模态经验,选择有助于世界模型更新的经验,并更新世界模型以缓解历史遗忘。
这三个模块通过闭环动态自我规划、自我控制和自我反思,共同实现EvoAgent的自主进化,完成长时任务。
问题2:EvoAgent在Minecraft实验中的表现如何?与其他方法相比有哪些优势?
- 总体结果:EvoAgent在所有资源层级上均达到了最先进的成功率(SR)和探索效率(EE)。与现有方法相比,EvoAgent的平均成功率提高了105%,并将无效动作减少了6倍以上。
- 任务完成情况:在基本任务(木材/石头)上,EvoAgent略优于Optimus-1(木材97.47% vs.96.39% SR),在高级任务(金/钻石)上表现出显著优势(金21.69% vs. 10.62%SR,钻石17.36% vs. 9.30% SR)。
- 探索效率:在金任务上,EvoAgent的30.48%
EE比Optimus-1高出3.8倍,表明在稀疏奖励场景中大幅减少了无效动作。相比其他方法,EvoAgent的优势主要体现在其闭环规划-控制-反射机制,能够有效解决长时依赖性问题,并在稀疏奖励场景中表现出显著的探索效率。此外,EvoAgent的持续世界模型能够编码工具依赖性和适应探索策略,进一步提升了其在复杂任务中的表现。
问题3:EvoAgent的持续世界模型是如何通过闭环动态更新多模态经验池和世界知识的?
- 多模态经验池(MEP):存储代理与环境交互的记录,包括状态、动作、奖励和下一个状态的概率。如果子任务未完成,经验将被添加到所有记忆中;如果子任务完成,经验将被添加到多模态经验池中。
- 闭环动态:通过自我规划和自我控制,EvoAgent不断生成子任务并执行,收集环境反馈并进行自我验证。反射器根据当前多模态状态、子任务和多模态经验,选择有助于世界模型更新的经验。
- 世界模型更新:使用课程引导的经验更新世界模型,强调重要经验并惩罚对过去任务关键参数变化的参数。
具体公式如下: θ ′ M w ← θ M w − ∇ [ ∑ h j w j L pred ( h j ) ⏟ CurriculumLoss + μ ⋅ Ω ( θ , θ old ) ⏟ Regularization ] \theta^{\prime}{\mathcal{M}{w}}\leftarrow\theta_{\mathcal{M}{w}}-\nabla{[}\underbrace{\sum{h_{j}}w_{j}\mathcal{L}{\text{pred}}(h{j})}{\text{CurriculumLoss}}+\underbrace{\mu\cdot\Omega(\theta,\theta^{\text{old}})}{\text{Regularization}}{]} θ′Mw←θMw−∇[ ∑hjwjLpred(hj)CurriculumLoss+ μ⋅Ω(θ,θold)Regularization]
其中, w j w_{j} wj是根据经验的重要性加权, Ω \Omega Ω用于惩罚对过去任务关键参数变化的参数。
通过这种闭环动态,EvoAgent能够不断更新多模态经验池和世界知识,过滤无效探索并缓解历史遗忘,从而实现更好的自主规划和动作控制。