-
作者:Amir Bar, Gaoyue Zhou, Danny Tran, Trevor Darrell, Yann LeCun
-
单位:Meta FAIR,纽约大学,布里克利AI研究
-
原文链接:Navigation World Models (https://arxiv.org/abs/2412.03572)
-
项目主页:https://www.amirbar.net/nwm/
主要贡献
-
论文提出了一种新的导航世界模型(NWM),能够根据过去的观测和导航动作预测未来的视觉观测。NWM能够在规划过程中动态地结合约束条件,而不仅仅是固定的行为模式。
-
引入了条件扩散Transformer(CDiT),能够在多种环境和实体上训练,并且具有显著降低的计算复杂度。CDiT模型能够扩展到1亿参数,并且在计算资源消耗上比标准的DiT减少了4倍。
-
NWM在多种机器人和智能体的视频数据上进行训练,使其能够适应多个环境。通过在Ego4D的无标签视频数据上进行训练,展示了在未见环境中改进的视频预测和生成性能。
研究背景
研究问题
论文主要解决的问题是如何设计一个导航世界模型(Navigation World Model, NWM),该模型能够根据过去的观测和导航动作预测未来的视觉观测,从而辅助智能体进行导航。
研究难点
该问题的研究难点包括:
-
如何捕捉复杂环境动态、
-
如何在未知环境中进行轨迹规划、
-
以及如何在不增加计算资源的情况下动态调整约束条件。
相关工作
-
目标导航:要求机器人具备感知和规划技能。现有的方法包括通过行为克隆和时间距离目标的扩散策略来训练扩散策略,以及使用神经SLAM和解析规划器结合的方法。
-
世界模型:世界模型的目标是模拟环境,例如预测给定当前状态和动作的下一个状态和相关奖励。研究表明,联合学习策略和世界模型可以提高样本效率,并且世界模型可以在多个环境和任务中共享。
-
视频生成:视频生成长期以来一直是计算机视觉领域的一个挑战。最近的进展包括文本到视频合成方法和用于视频任务和预测的扩散模型。这些模型在强化学习中被用作奖励、预训练方法、操纵动作的模拟和室内环境路径生成。
-
扩散模型:扩散模型在视频生成和预测方面都很有用,也被用于视图合成。然而,与这些方法不同,论文中提出的条件扩散变压器(CDiT)用于模拟轨迹进行规划,而不依赖于显式的3D表示或先验知识。
研究方法
论文提出导航世界模型(Navigation World Model,NWM),是一种基于视频生成的可控模型,能够预测未来的视觉观察结果。
NWM的核心是一个条件扩散变压器(CDiT),它在多样化的机器人和智能体的视频数据上进行了训练,并且能够扩展到10亿参数的规模。
形式化描述
NWM的定义是一个模型,它接收当前世界的状态(例如,一个图像观察)和一个描述移动和旋转的导航动作。模型然后生成相对于智能体视角的下一个世界状态。
给定一个包含第一人称视频和智能体导航动作的数据集 ,其中 是一个图像, 是一个导航命令,由平移参数 和偏航角 组成。目标是学习一个世界模型 ,它是一个从过去的潜在观察 和动作 到未来潜在状态表示 的随机映射。
基于扩散Transformer的世界模型
-
NWM使用条件扩散变压器(CDiT)作为其世界模型架构。CDiT是一个时间自回归的变换器模型,它通过在输入序列的潜在上应用多个CDiT块来实现这一点。CDiT通过限制第一个注意力块中的注意力仅到目标帧的标记来提高时间效率的自动回归建模。
-
CDiT还使用了一个跨注意力层来将过去帧的标记作为键和值,以便在当前目标上进行上下文化。为了条件化连续的动作(如平移 、旋转 和时间偏移 )以及扩散时间步长 ,论文将这些标量映射到正弦余弦特征,然后应用一个两层MLP来生成用于条件化的嵌入向量。
-
在训练过程中,噪声被添加到目标状态 ,并且模型尝试从噪声版本恢复原始状态表示。模型的训练目标是学习去噪过程,即最小化噪声目标与预测目标之间的均方误差。
基于世界模型的导航规划
-
NWM可以用来规划导航轨迹。在已知环境中,NWM可以通过模拟导航轨迹并选择达到目标的轨迹来进行规划。在未知环境中,NWM可以使用想象力进行长期规划。
-
论文定义了一个能量函数 ,最小化该能量相当于最大化未归一化的感知相似度得分并遵循状态和动作上的潜在约束。通过优化这个能量函数,NWM可以找到最小化到达目标状态 的概率的动作序列。
-
NWM还可以用来对现有的导航策略进行排名。通过模拟NoMaD等策略采样的轨迹,NWM可以选择最接近真实轨迹的轨迹。
实验设计
数据集
论文使用了多个机器人数据集(SCAND、TartanDrive、RECON、HuRoN)和无标签的Ego4D视频进行训练,并在Go Stanford数据集上进行未知环境的评估。
评估指标
评估预测导航轨迹的准确性使用
-
绝对轨迹误差(ATE),
-
相对位姿误差(RPE)。
为了检查世界模型预测与真实图像的语义相似性,
-
使用了LPIPS和DreamSim来衡量感知相似性,
-
使用PSNR来衡量像素级质量。
对于图像和视频合成质量,使用了FID和FVD。
基线方法
-
DIAMOND:这是一个基于UNet架构的扩散世界模型。DIAMOND在离线强化学习设置中使用,训练目的是自回归地预测56x56分辨率的图像,并使用上采样器将其转换为224x224分辨率的预测。论文中对DIAMOND的动作嵌入进行了修改,以适应连续动作。
-
GNM:这是一个通用的目标条件导航策略,它在多个机器人导航数据集的组合上训练,使用一个全连接的轨迹预测网络。GNM在SCAND、TartanDrive、GO Stanford和RECON等多个数据集上进行了训练。
-
NoMaD:这是GNM的扩展,使用扩散策略进行机器人探索和视觉导航。NoMaD在GNM使用的相同数据集以及HuRoN上进行了训练。
实现细节
在默认实验设置中,使用了一个包含1亿参数的CDiT-XL模型,上下文帧数为4帧,batch size为1024,使用Stable Diffusion VAE分词器,AdamW优化器,学习率为。
结果与分析
消融研究
通过改变模型大小、目标数量、上下文大小以及时间和动作条件,论文验证了这些因素对模型性能的影响。
结果表明,更大的模型容量、更多的目标数量和适当的上下文大小有助于提高预测性能。
视频预测和合成
NWM在视频预测和合成质量上也表现良好,与DIAMOND相比,NWM生成的视频在长时间预测上更为准确,且在视觉质量上更高。
导航规划
NWM能够在已知和未知环境中有效地进行导航规划。在已知环境中,NWM可以独立规划或对外部策略进行排名;在未知环境中,NWM可以通过想象力进行长期规划。
泛化到未知环境
通过在Ego4D上进行无监督训练,NWM在Go Stanford等新环境中的视频预测性能得到了显著提升。
局限与不足
模式塌缩(Mode Collapse)
当应用于分布外数据时,模型倾向于逐渐失去上下文,并生成与训练数据相似的下一个状态。这种现象在图像生成中也观察到过,被称为模式塌缩。如上图所示,显示了在未知环境中模型输出的逐渐变化。
时间动态模拟困难
虽然模型可以进行规划,但在模拟像行人运动这样的复杂时间动态时存在困难。尽管在某些情况下模型可以做到这一点,但总体上这是一个挑战。
导航动作的自由度
目前模型使用的是3自由度(3 DOF)导航动作,但未来工作可能会扩展到6自由度(6 DOF)导航,甚至更多(如控制机械臂的关节)。这将需要进一步的研究和开发。
总结
本文提出的导航世界模型(NWM)通过条件扩散Transformer(CDiT)实现了在大规模数据上的高效训练,并在导航任务中表现出色。
NWM不仅能够独立规划导航轨迹,还能通过与现有导航策略结合来提升性能。此外,通过在未标记数据上进行训练,NWM在未知环境中的表现也得到了显著改善。