摘要:世界建模是使智能代理能够有效地与人类交互并在动态环境中运行的关键任务。 在这项工作中,我们提出了MineWorld,一个基于Minecraft的实时交互式世界模型,Minecraft是一个开放式的沙盒游戏,已被用作世界建模的通用测试平台。 MineWorld由视觉动作自回归Transformer驱动,该Transformer将成对的游戏场景和相应的动作作为输入,并根据动作生成后续的新场景。 具体来说,通过图像标记器和动作标记器将视觉游戏场景和动作转换为离散的标记id,我们将两种id的交织连接组成模型输入。 然后,该模型通过下一个标记预测进行训练,以同时学习游戏状态的丰富表示以及状态和动作之间的条件。 在推理中,我们开发了一种新的并行解码算法,该算法可以同时预测每帧中的空间冗余标记,让不同尺度的模型每秒生成4到7帧,并实现与游戏玩家的实时交互。 在评估中,我们提出了新的指标,不仅评估视觉质量,还评估生成新场景时的动作跟随能力,这对于世界模型至关重要。 我们的综合评估显示了MineWorld的有效性,其表现明显优于SoTA开源扩散的世界模型。 代码和模型已经发布。Huggingface链接:Paper page,论文链接:2504.08388
研究背景和目的
研究背景
世界建模是人工智能领域中的一个核心任务,它旨在使智能代理能够有效地感知周围环境、接收控制信号并预测后续状态,从而在动态环境中实现高效的交互和操作。近年来,随着深度学习技术的飞速发展,特别是自回归模型在图像生成领域的成功应用,世界建模技术也取得了显著的进步。然而,现有的世界模型在实现高效交互和可控性方面仍面临诸多挑战。
一方面,视频生成模型虽然能够学习到丰富的常识性知识,如物理定律和物体交互等,但在效率和可控性方面存在瓶颈。传统的视频生成模型通常以潜在视频表示(由视觉标记器编码)为生成目标,这些表示包含大量标记,导致在推理过程中计算成本高昂,难以实现实时交互。另一方面,现有的世界模型在评估其可控性时缺乏标准化的指标,难以准确衡量生成结果对输入信号的遵循程度。
针对这些问题,研究者们开始探索基于游戏的世界建模方法,利用游戏环境作为测试平台来验证世界模型的性能。Minecraft作为一款开放式的沙盒游戏,具有高度的自由度和复杂的交互性,因此成为了一个理想的世界建模测试平台。
研究目的
本研究旨在提出一种基于Minecraft的实时开源交互世界模型——MineWorld,以解决现有世界模型在效率和可控性方面的挑战。具体研究目的包括:
- 建立高效的世界模型:通过设计一种新型的自回归Transformer模型,结合图像和动作标记器,实现高效的视觉和动作信息编码,从而在推理过程中实现实时交互。
- 提升可控性:通过提出新的评估指标,量化生成结果对输入动作的遵循程度,从而准确评估世界模型的可控性。
- 推动世界建模技术的发展:通过发布MineWorld的代码和模型,为其他研究者提供一个开放的实验平台,推动世界建模技术的进一步发展。
研究方法
模型架构
MineWorld模型主要由图像标记器、动作标记器和自回归Transformer解码器三部分组成。
- 图像标记器:采用VQ-VAE架构,将视觉游戏场景转换为离散的标记id。该标记器从预训练的检查点开始,并在Minecraft数据集上进行微调,以实现高质量的图像重建。
- 动作标记器:将连续的动作(如鼠标移动)量化为离散的标记,并将离散的动作(如前进、攻击)归类为不同的类别,每个类别由唯一的标记表示。此外,还引入了特殊的标记来表示动作序列的开始和结束。
- 自回归Transformer解码器:采用LLaMA架构,以交替的方式接收图像和动作标记序列作为输入,并通过下一个标记预测进行训练。该解码器能够同时学习游戏状态的丰富表示以及状态和动作之间的条件关系。
并行解码算法
为了实现实时交互,MineWorld模型开发了一种新的并行解码算法。该算法利用相邻图像标记之间的空间依赖性,同时预测每帧中的空间冗余标记。与传统的自回归解码算法相比,并行解码算法能够实现显著的速度提升,同时保持高质量的生成结果。
评估指标
为了全面评估MineWorld模型的性能,研究提出了以下评估指标:
- 视觉质量评估指标:包括Fréchet视频距离(FVD)、峰值信噪比(PSNR)、学习到的感知图像块相似性(LPIPS)和结构相似性指数(SSIM)等,用于量化生成结果的视觉质量。
- 可控性评估指标:提出了一种基于逆动态模型(IDM)的评估方法,通过预测生成视频中的动作并与输入动作进行比较,量化生成结果对输入动作的遵循程度。具体指标包括离散动作分类的精度、召回率和F1分数,以及连续动作(如相机旋转角度)的L1损失。
研究结果
模型性能
实验结果表明,MineWorld模型在视觉质量和可控性方面均表现出色。与现有的开源扩散世界模型Oasis相比,MineWorld在各项评估指标上均取得了显著的提升。特别是在可控性方面,MineWorld通过引入新的评估指标和并行解码算法,实现了对输入动作的高精度跟随。
实时交互能力
通过并行解码算法的优化,MineWorld模型能够实现每秒生成4到7帧的速度,从而支持与专业游戏玩家进行实时交互。这一能力对于世界模型在动态环境中的实际应用具有重要意义。
案例分析
通过对MineWorld生成的游戏场景进行分析,研究展示了模型在多种游戏任务中的表现。例如,在开门、砍树和相机旋转等任务中,MineWorld能够准确地根据输入动作生成相应的游戏场景,并保持高度的视觉一致性和连贯性。
研究局限
尽管MineWorld模型在多个方面取得了显著成果,但仍存在一些局限性:
- 数据依赖:MineWorld模型是在Minecraft数据集上训练的,因此其泛化能力可能受到一定限制。未来的研究可以尝试在其他游戏或现实环境中验证模型的性能。
- 分辨率限制:由于计算资源的限制,MineWorld模型在训练和推理过程中采用了较低的图像分辨率。未来的研究可以探索如何在保持实时交互能力的同时提高图像分辨率。
- 评估指标的局限性:尽管研究提出了新的可控性评估指标,但这些指标仍可能无法完全捕捉生成结果的复杂性和多样性。未来的研究可以进一步探索更全面的评估方法。
未来研究方向
针对上述局限性,未来的研究可以从以下几个方面展开:
- 跨域泛化:尝试将MineWorld模型应用于其他游戏或现实环境,验证其跨域泛化能力。通过在不同场景中的测试和优化,进一步提高模型的通用性和实用性。
- 高分辨率建模:探索如何在保持实时交互能力的同时提高图像分辨率。这可能需要引入更高效的计算方法和硬件加速技术来支持高分辨率的视频生成。
- 全面的评估体系:建立更全面的评估体系来量化生成结果的复杂性和多样性。这可能需要结合人类评估和自动评估方法,以提供更准确和全面的性能评估。
- 实时交互优化:继续优化MineWorld模型的实时交互能力,包括提高解码速度和降低计算成本等。这可能需要引入更高效的算法和更强大的硬件支持来实现更流畅的实时交互体验。
综上所述,本研究通过提出MineWorld模型并探索其在世界建模中的应用,为智能代理在动态环境中的交互和操作提供了新的思路和方法。未来的研究将在此基础上继续深化和优化模型性能,推动世界建模技术的进一步发展。