摘要
最近在自回归(AR)生成模型方面的成功,例如自然语言处理中的GPT系列,激发了在视觉任务中复制这一成功的努力。一些研究尝试将这种方法扩展到自动驾驶中,通过构建基于视频的世界模型来生成逼真的未来视频序列和预测自我状态。然而,先前的工作往往产生不尽人意的结果,因为经典的GPT框架旨在处理一维上下文信息(如文本),缺乏生成视频所必需的空间和时间动态的建模能力。在本文中,本文提出了DrivingWorld,这是一个GPT风格的自动驾驶世界模型,具有几种空间-时间融合机制。这种设计使得能够有效地建模空间和时间动态,从而实现高保真度、长时间的视频生成。具体来说,本文提出了一种下一状态预测策略来建模连续帧之间的时间连贯性,并应用一种下一个token预测策略来捕获每一帧内的空间信息。为了进一步增强泛化能力,本文提出了一种新颖的masking策略和token预测的重加权策略,以缓解长期漂移问题并实现精确控制。本文的工作展示了生成超过40秒时长的高保真度和一致的视频片段的能力,这比现有的最先进的驾驶世界模型长了两倍以上。实验表明,与先前的工作相比,本文的方法在视觉质量和可控的未来视频生成的准确性方面都取得了显著的优越性。
©️【深蓝AI】编译
论⽂题目:DrivingWorld: Constructing World Model for Autonomous Driving via Video GPT
论文作者:Xiaotao Hu,Wei Yin,Mingkai Jia,Junyuan Deng,Xiaoyang Guo,Qian Zhang,Xiaoxiao Long,Ping Tan
论文地址:https://arxiv.org/pdf/2412.19505
官方网站:https://github.com/YvanYin/DrivingWorld
▲图1|本文方法的可控生成结果©️【深蓝AI】编译
介绍
近年来,自回归(AR)学习方案在自然语言处理中取得显著成功,如GPT系列模型,这促使研究人员尝试将其应用于视觉任务,特别是自动驾驶的基于视觉的世界模型构建。自动驾驶系统中的未来事件预测至关重要,但现有模型依赖大量标注数据,容易在分布外和长尾场景中失效,尤其对于罕见极端情况,如事故,获取足够训练数据非常困难。
一种有前景的解决方案是自回归世界模型,它通过无监督学习从未标注的大规模视频中学习综合信息,增强驾驶决策的稳健性,并减少灾难性错误,提高安全性和泛化能力。先前工作GAIA-1首次将GPT框架从语言扩展到视频,但由于其主要设计用于一维上下文信息,缺乏有效建模视频所需的空间和时间动态的能力,导致生成视频质量较低且存在伪影。
为此,本文提出了DrivingWorld——一种基于GPT风格视频生成框架的驾驶世界模型,旨在通过以下创新增强时间连贯性:
1) 时间感知标记化,将视频帧转换为时间连贯的标记;
2) 混合标记预测,引入下一状态预测策略以捕捉连续状态间的时间连贯性及空间信息;
3) 长时间可控策略,实施随机标记丢弃和平衡注意力策略,提高鲁棒性和控制精度。
实验表明,该模型实现了良好的泛化性能,能生成超过40秒的高质量视频序列,并提供准确的下一步轨迹预测。
相关工作
世界模型
世界模型捕捉环境的综合表示并预测未来状态,广泛应用于游戏和实验室环境中。Dreamer系列通过潜在动态模型预测状态值和动作,在Atari游戏和Minecraft中表现出色。DayDreamer扩展了Dreamer,用于训练机器人完成现实任务。在驾驶场景中,Drive-WM使用扩散模型探索真实驾驶规划,GAIA-1基于自回归模型研究驾驶,但其计算需求随条件帧数增加而上升。本文提出了一种高效自回归框架下的自动驾驶世界模型。
VQVAE
VQVAE通过向量量化学习离散码本表示图像分布。VQGAN及其改进版本(如MoVQ、LlamaGen)提高了生成图像的真实性和重建性能。ViTVQGAN用视觉变换器替换卷积编码器-解码器,增强了长距离依赖捕捉能力;VAR采用多尺度结构提升了生成质量和速度。然而,这些方法主要针对单张图像处理,无法捕捉时间一致性。为此,本文提出了时间感知标记器和解码器。
视频生成
视频生成模型主要有三种:基于GAN、扩散和GPT的方法。基于GAN的方法面临模式崩溃和训练不稳定的问题;基于扩散的方法难以实现精确控制;基于GPT的方法虽然可控但计算成本高。本文提出了解耦时空世界模型框架,确保精确控制的同时显著降低了计算成本,并提升了模型效率。
本文方法
Tokenizer
词元化将连续数据转换为离散的词元,使其能够与语言模型集成并增强多模态序列建模。在本文的方法中,词元化器将多模态状态映射到统一的离散空间中,这使得能够进行准确且可控的多模态生成。为了生成图像的时间一致性嵌入,本文提出了一种时间感知的向量量化词元化器。本文提出的车辆姿态词元化器将姿态轨迹离散化并将其整合到本文的DrivingWorld中。
单图像向量量化(VQ)词元化器,旨在将图像特征映射转换为离散词元
。该量化器利用一个学习得到的离散码本
,包含
个向量,将每个特征
映射到
中最近代码的索引
。这种方法使得连续图像数据能够转换为离散词元。 时间感知向量量化词元化器。单图像VQ词元化器常常难以产生时间上一致的嵌入,导致视频预测不连续,阻碍世界模型的训练。图像序列
被编码为
,其中每个特征都是独立处理的,缺乏时间信息。
为解决此问题,本文提出一种时间感知向量量化词元化器,旨在确保随时间一致的嵌入。具体来说,为了捕捉时间依赖性,本文在VQGAN量化之前和之后插入一个自注意力层,其中注意力沿时间维度操作。这使本文的模型能够捕捉帧之间的长期时间关系,提高生成序列的连贯性和一致性。本文的模型基于LlamaGen的开源VQGAN实现。本文简单而有效的时间自注意力的集成可以无缝地融入原始框架,随后进行微调,以开发一个健壮且可泛化的时间感知VQ词元化器。在执行量化之前被送入时间自注意力
: