世界模型助力视觉语言导航！LeCun新作：导航世界模型

视觉语言导航

已于 2025-01-07 13:00:12 修改

阅读量543

点赞数 18

分类专栏： VLN 文章标签：人工智能具身智能深度学习

于 2025-01-07 12:05:21 首次发布

本文链接：https://blog.csdn.net/weixin_37990186/article/details/144982669

版权

93 篇文章

订阅专栏

论文提出了一种新的导航世界模型（NWM），能够根据过去的观测和导航动作预测未来的视觉观测。NWM能够在规划过程中动态地结合约束条件，而不仅仅是固定的行为模式。
引入了条件扩散Transformer（CDiT），能够在多种环境和实体上训练，并且具有显著降低的计算复杂度。CDiT模型能够扩展到1亿参数，并且在计算资源消耗上比标准的DiT减少了4倍。
NWM在多种机器人和智能体的视频数据上进行训练，使其能够适应多个环境。通过在Ego4D的无标签视频数据上进行训练，展示了在未见环境中改进的视频预测和生成性能。

论文主要解决的问题是如何设计一个导航世界模型（Navigation World Model, NWM），该模型能够根据过去的观测和导航动作预测未来的视觉观测，从而辅助智能体进行导航。

该问题的研究难点包括：

论文提出导航世界模型(Navigation World Model，NWM)，是一种基于视频生成的可控模型，能够预测未来的视觉观察结果。

NWM的核心是一个条件扩散变压器（CDiT），它在多样化的机器人和智能体的视频数据上进行了训练，并且能够扩展到10亿参数的规模。

NWM的定义是一个模型，它接收当前世界的状态（例如，一个图像观察）和一个描述移动和旋转的导航动作。模型然后生成相对于智能体视角的下一个世界状态。

给定一个包含第一人称视频和智能体导航动作的数据集，其中是一个图像，是一个导航命令，由平移参数和偏航角组成。目标是学习一个世界模型，它是一个从过去的潜在观察和动作到未来潜在状态表示的随机映射。

NWM使用条件扩散变压器（CDiT）作为其世界模型架构。CDiT是一个时间自回归的变换器模型，它通过在输入序列的潜在上应用多个CDiT块来实现这一点。CDiT通过限制第一个注意力块中的注意力仅到目标帧的标记来提高时间效率的自动回归建模。
CDiT还使用了一个跨注意力层来将过去帧的标记作为键和值，以便在当前目标上进行上下文化。为了条件化连续的动作（如平移、旋转和时间偏移）以及扩散时间步长，论文将这些标量映射到正弦余弦特征，然后应用一个两层MLP来生成用于条件化的嵌入向量。
在训练过程中，噪声被添加到目标状态，并且模型尝试从噪声版本恢复原始状态表示。模型的训练目标是学习去噪过程，即最小化噪声目标与预测目标之间的均方误差。

NWM可以用来规划导航轨迹。在已知环境中，NWM可以通过模拟导航轨迹并选择达到目标的轨迹来进行规划。在未知环境中，NWM可以使用想象力进行长期规划。
论文定义了一个能量函数，最小化该能量相当于最大化未归一化的感知相似度得分并遵循状态和动作上的潜在约束。通过优化这个能量函数，NWM可以找到最小化到达目标状态的概率的动作序列。
NWM还可以用来对现有的导航策略进行排名。通过模拟NoMaD等策略采样的轨迹，NWM可以选择最接近真实轨迹的轨迹。

论文使用了多个机器人数据集（SCAND、TartanDrive、RECON、HuRoN）和无标签的Ego4D视频进行训练，并在Go Stanford数据集上进行未知环境的评估。

评估预测导航轨迹的准确性使用

为了检查世界模型预测与真实图像的语义相似性，

对于图像和视频合成质量，使用了FID和FVD。

DIAMOND：这是一个基于UNet架构的扩散世界模型。DIAMOND在离线强化学习设置中使用，训练目的是自回归地预测56x56分辨率的图像，并使用上采样器将其转换为224x224分辨率的预测。论文中对DIAMOND的动作嵌入进行了修改，以适应连续动作。
GNM：这是一个通用的目标条件导航策略，它在多个机器人导航数据集的组合上训练，使用一个全连接的轨迹预测网络。GNM在SCAND、TartanDrive、GO Stanford和RECON等多个数据集上进行了训练。
NoMaD：这是GNM的扩展，使用扩散策略进行机器人探索和视觉导航。NoMaD在GNM使用的相同数据集以及HuRoN上进行了训练。