Easy-RL项目解读：LS-Imagine在开放世界中的长短期想象强化学习-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00815/article/details/148393829

Easy-RL项目解读：LS-Imagine在开放世界中的长短期想象强化学习

easy-rl 强化学习中文教程（蘑菇书🍄），在线阅读地址：https://datawhalechina.github.io/easy-rl/ 项目地址: https://gitcode.com/gh_mirrors/ea/easy-rl

引言

在开放世界环境中，强化学习智能体面临着巨大的挑战。本文介绍的LS-Imagine方法，通过创新的长短期世界模型架构，在Minecraft等开放世界环境中实现了高效的视觉强化学习。该方法由Easy-RL项目团队提出，为解决开放世界决策中的"短视"问题提供了新的思路。

方法概述

LS-Imagine的核心思想是让智能体能够同时进行短期和长期的想象，从而在探索过程中兼顾即时反馈和长期回报。该方法包含以下几个关键组件：

功用性图计算：通过图像放大模拟探索过程，评估不同区域的潜在价值
长短期世界模型：同时支持即时状态转换和跳跃式状态转换
混合想象策略：结合短期和长期想象优化行为策略

关键技术解析

功用性图生成

功用性图是LS-Imagine方法的核心创新之一，它通过以下步骤生成：

滑动窗口扫描：使用边界框遍历整张观察图像
模拟探索视频：对每个窗口位置生成16帧连续放大的图像
相关性评估：使用预训练模型评估模拟视频与任务描述的相关性
融合生成：整合所有窗口位置的相关性值，形成完整的功用性图

这种方法的优势在于不需要真实成功轨迹作为监督信号，完全基于当前观察和任务描述生成探索指导。

长短期世界模型架构

LS-Imagine的世界模型采用双分支设计：

短期分支：处理相邻时间步的状态转换
长期分支：实现目标导向的跳跃式状态转换

模型还包含两个关键预测器：

跳跃预测器：决定何时使用长期转换
间隔预测器：估计跳跃转换的时间间隔和累积奖励

行为学习策略

在行为学习阶段，LS-Imagine采用演员-评论家框架，并引入改进的bootstrap λ-returns计算：

$$ R_{t}^{\lambda} \doteq \begin{cases} \hat{c}{t} {\hat{G}{t+1} + \gamma^{\hat{\Delta}{t+1}} \left[ (1-\lambda) v{\psi} (\hat{s}{t+1}) + \lambda R{t+1}^{\lambda} \right] } & \text{if } t < L \ v_{\psi} (\hat{s}_{L}) & \text{if } t = L \end{cases} $$

这种计算方法有效地结合了长期和短期想象的优点，使智能体能够做出更优的决策。

实验结果分析

在Minecraft的5个开放世界任务中，LS-Imagine表现出显著优势：

成功率对比：
- 收集原木任务：80.63% (LS-Imagine) vs 53.33% (DreamerV3)
- 收集水任务：77.31% vs 55.72%
- 开采铁矿石：20.28% vs 16.79%
效率对比：
- 收集原木平均步数：503.35步 (LS-Imagine) vs 711.22步 (DreamerV3)
- 剪羊毛平均步数：633.78步 vs 841.14步

特别值得注意的是，在目标稀疏分布的任务中，LS-Imagine的优势更加明显，这验证了长期想象机制的有效性。