驶向未来(Drive-WM):用于自动驾驶的多视图视觉预测与规划的世界模型

Abstract

在自动驾驶中,提前预测未来事件和评估可预见的风险使得自动驾驶车辆能够更好地规划其行动,从而提高道路上的安全性和效率。为此,我们提出了Drive-WM,这是第一个兼容现有端到端规划模型的驾驶世界模型。通过视图分解实现的时空联合建模,我们的模型可以在驾驶场景中生成高保真度的多视图视频。基于其强大的生成能力,我们首次展示了将世界模型应用于安全驾驶规划的潜力。特别是,我们的Drive-WM能够基于不同的驾驶动作驶向多个未来,并根据基于图像的奖励确定最优轨迹。在真实驾驶数据集上的评估验证了我们的方法能够生成高质量、一致且可控的多视图视频,为现实世界的模拟和安全规划开辟了新的可能性。代码地址:https://github.com/BraveGroup/Drive-WM

图片

Introduction

端到端自动驾驶的兴起最近引起了越来越多的关注。这些方法将多传感器数据作为输入,直接在联合模型中输出规划结果,从而实现所有模块的联合优化。然而,当面对分布外(OOD)情况时,纯粹依赖专家驾驶轨迹训练的端到端规划器是否具有足够的泛化能力令人怀疑。如图2所示,当自车的位置偏离中心线时,端到端规划器难以生成合理的轨迹。为了解决这个问题,我们提出通过开发一个预测模型来提高自动驾驶的安全性,该模型可以在决策之前预见规划器的退化。这个模型,被称为世界模型,旨在基于当前状态和自车动作预测未来状态。通过提前视觉化未来并在实际决策前从不同的未来中获取反馈,它可以提供更合理的规划,从而增强端到端自动驾驶的泛化性和安全性。

图片

然而,尽管在游戏模拟和实验室机器人环境中取得了成功的尝试,但学习与现有端到端自动驾驶模型兼容的高质量世界模型仍然具有挑战性。具体来说,有三大挑战:(1)驾驶世界模型需要在高分辨率像素空间中建模。被编码并展平成一系列 d 维嵌入 不可矢量化的事件。此外,矢量空间世界模型需要额外的矢量注释,并且受到感知模型状态估计噪声的影响。(2)生成多视图一致视频是困难的。以前和同期的工作局限于单视图视频或多视图图像生成,使得多视图视频生成成为自动驾驶所需的全面环境观察的一个未解问题。(3)灵活适应多种异构条件(如天气变化、光照、自车动作以及道路/障碍物/车辆布局)是具有挑战性的。

多视图视频生成

1、 多视图视频的联合建模

为了联合建模多视图时间数据,我们从研究较多的图像扩散模型开始,通过引入额外的时间层和多视图层,将其适应于多视图-时间场景。在本小节中,我们首先介绍联合建模的整体公式,并详细说明时间和多视图层。

图片

时间编码层

我们首先引入时间层,将预训练的图像扩散模型提升为时间模型。时间编码层在每个块中的2D空间层之后附加,遵循VideoLDM[2]中的既定做法。空间层在帧和视图的基础上编码潜在的
(TK)CHW→KCTHW,在时空维度THW上应用3D卷积。然后我们将潜在的内容排列为
(KHW)TC 并在时间维度上应用标准多头自注意力,以增强时间依赖性。

多视图编码层

为了联合建模多个视图,视图之间必须有信息交换。因此,我们通过引入多视图编码层,将单视图时间模型提升为多视图时间模型。特别地,我们将潜在的内容重新排列为

参数化的自注意力层

这种多视图注意力允许所有视图具有相似的风格和一致的整体结构。多视图时间调优。鉴于强大的图像扩散模型,我们不会从头开始训练时间多视图网络。相反,我们首先使用单视图图像数据和条件训练一个标准的图像扩散模型,对应于公式中的参数

图片

2 、联合多视图建模的分解

虽然第1节中的联合分布可以在不同视图之间产生相似的风格,但很难确保在其重叠区域中的严格一致性。在本小节中,我们介绍分布分解以增强多视图一致性。

3 、统一条件生成

由于现实世界的复杂性,世界模型需要利用多个异构条件。在我们的案例中,我们利用初始上下文帧、文本描述、自车动作、3D框、俯视图地图和参考视图。为了更好地控制,还可以进一步包括更多条件。为每一个开发专门的接口既费时又不灵活。为了解决这个问题,我们引入了一个统一的条件接口,这个接口简单但有效地整合了多个异构条件。在接下来的部分中,我们首先介绍如何编码每个条件,然后描述统一条件接口。

图片

图像条件:  

我们将初始上下文帧(即一个片段的第一帧)和参考视图视为图像条件。

布局条件

布局条件指3D框、高清地图和俯视图分割。为简便起见,我们将3D框和高清地图投影到2D透视图中。

动作条件

动作条件对于世界模型生成未来是不可或缺的。

统一条件接口

至此,所有条件都被映射到d维特征空间中。我们将所需嵌入的串联作为去噪UNet的输入。以基于动作的联合视频生成为例,这使我们能够利用初始上下文图像、初始布局、文本描述和逐帧动作序列。

端到端规划的世界模型

在未预见后果的情况下盲目规划行动是危险的。利用我们的世界模型可以全面评估可能的未来,从而进行更安全的规划。

1. 基于动作的树状展开

我们在本节中描述了使用世界模型进行规划的方法。在每个时间步长中,我们利用世界模型生成预测的未来场景,以供从规划器中采样的轨迹候选进行评估,并使用基于图像的奖励函数对未来进行评估,从而选择最佳轨迹来扩展规划树。

如图5所示,我们将规划树定义为一系列随时间演变的预测自车轨迹。对于每个时间点,摄像头可以捕捉到真实的多视角图像。预训练的规划器将真实的多视角图像作为输入,并采样可能的轨迹候选。为了与主流规划器的输入兼容,我们定义其在时间 (t) 的动作 (a_t) 为每条轨迹的 ((x_{t+1} - x_t, y_{t+1} - y_t)),其中 (x_t) 和 (y_t) 是时间 (t) 时的自车位置。给定这些动作,我们采用公式5中的条件组合进行视频生成。生成后,我们利用基于图像的奖励函数选择最佳轨迹作为决策。这样的生成-决策过程可以重复进行,形成基于树状的展开。

2. 基于图像的奖励函数

在为规划轨迹生成未来视频后,需要奖励函数来评估多个未来的合理性。

首先,我们从感知结果中获取奖励。地图奖励包括两个因素,即远离路缘的距离,鼓励自车保持在正确的可行驶区域,以及中心线一致性,防止自车频繁变道和横向偏离车道。物体奖励指的是与其他道路使用者在纵向和横向方向上的距离。这个奖励避免了自车与其他道路使用者之间的碰撞。总奖励被定义为物体奖励和地图奖励的乘积。我们最终选择具有最大奖励的自车预测。然后,规划树前进到下一个时间戳,并迭代规划后续轨迹。

由于所提出的世界模型在像素空间中操作,它还可以从非矢量化表示中获得奖励,以处理更普遍的情况。例如,洒水器喷出的水和损坏的路面难以通过监督感知模型进行矢量化,而从大量未标注数据中训练的世界模型可以在像素空间中生成这些情况。利用最近强大的基础模型,如GPT-4V,规划过程可以从非矢量化表示中获得更全面的奖励。在附录中,我们展示了一些典型的例子。

5. 实验

多视图一致性评估。
我们引入了一种新的指标,即关键点匹配(KPM)评分,以评估多视图一致性。该指标利用预训练的匹配模型 计算平均匹配关键点数量,从而量化 KPM 分数。在计算过程中,对于每个图像,我们首先计算当前视图与其两个相邻视图之间匹配的关键点数量。随后,我们计算生成数据中的匹配点数量与真实数据中的匹配点数量的比率。最后,我们对所有生成图像的这些比率取平均值以获得 KPM 分数。实际操作中,我们在验证集中每个场景均匀选择 8 帧来计算 KPM。

可控性评估。
为了评估视频内容生成的可控性,我们使用预训练的感知模型评估的图像。此外,我们还评估 3D 物体检测  和在线地图构建。

规划评估。
我们遵循开放循环评估指标 进行端到端规划,包括与 GT 轨迹的 L2 距离和物体碰撞率。

模型变体。
我们支持基于动作的视频生成和基于布局的视频生成。前者将每帧的自车动作作为条件,而后者将每帧的布局(3D 框,地图信息)作为条件。

2. 多视图视频生成的主要结果

我们首先展示了我们卓越的生成质量和可控性。这里的生成是基于逐帧 3D 布局条件进行的。我们的模型在 nuScenes 训练集上训练,并在验证集中进行评估。

生成质量。
由于我们是首个探索多视图视频生成的人,我们分别与之前的方法在多视图图像和单视图视频方面进行了对比。对于多视图图像生成,我们移除了第 1 节中的时间层。表 1a 展示了主要结果。在单视图图像生成中,我们达到了 12.99 的 FID,显著优于之前的方法。对于视频生成,我们的方法在质量上相比过去的单视图视频生成方法有显著提高,达到了 15.8 的 FID 和 122.7 的 FVD。此外,我们的方法是第一个生成一致多视图视频的工作,在第 3 节中进行了定量展示。

图片

可控性。
在表 1b 中,我们检查了我们方法在 nuScenes 验证集上的可控性。对于前景可控性,我们评估了生成的多视图视频上 3D 物体检测的性能,报告 mAPobj。我们还对 BEV 布局上的前景进行分割,报告 mIoUfg。关于背景控制,我们报告了道路分割的 mIoU。此外,我们评估了 HDMap 性能的 mAPmap。这种卓越的可控性凸显了统一条件接口(第 1.3 节)的有效性,并展示了世界模型作为神经模拟器的潜力

3. 多视图视频生成的消融研究

为了验证我们设计决策的有效性,我们对模型的关键特性进行了消融研究,如表 2 所示。实验是在基于布局的视频生成下进行的。

图片

统一条件。
在表 2a 中,我们发现布局条件对模型能力有显著影响,提高了生成视频的质量和一致性。此外,时间嵌入可以增强生成视频的质量。

图片

模型设计。
在表 2b 中,我们探讨了时间和视图层在多视图时间调整中的作用。实验表明,时间和视图层在未因子化情况下采用多视图层稍微提高了 KPM。

图片

因子化多视图生成。
如表 2c 所示,因子化生成显著提高了多个视图之间的一致性,从 45.8% 提高到 94.4%,相比于联合建模。这种提升是在保证图像和视频质量的前提下实现的。定性结果如图 6 所示。

图片

4. 探索世界模型的规划

在本小节中,我们探索了世界模型在端到端规划中的应用,这是近期自动驾驶研究中未被充分探索的领域。我们的尝试集中在两个方面:(1)首先我们展示了评估生成的未来对规划是有帮助的。(2)然后我们展示了世界模型可以用于改善一些域外案例中的规划。

图片

5. 反事实事件

给定初始观察和动作,我们的 Drive-WM 可以生成反事实事件,例如掉头和驶入不可驾驶区域(如图 7 所示),这些事件与训练数据有显著差异。生成这种反事实数据的能力再次揭示了我们的 Drive-WM 预见和处理域外案例的潜力。

图片

总结:

本文的主要贡献如下:
1、提出了Drive-WM,一个多视图世界模型,能够在自动驾驶场景中生成高质量、可控和一致的多视图视频。对nuScenes数据集的广泛实验展示了领先的视频质量和可控性。Drive-WM还在一个新颖的基于关键点匹配的度量中实现了优越的多视图一致性。
2、首次探索了将世界模型应用于端到端自动驾驶规划的潜力。实验结果表明,我们的方法可以提高规划的整体健全性和在分布外情况中的鲁棒性。

引用文章

Driving into the Future: Multiview Visual Forecasting and Planningwith World Model for Autonomous Driving

关注我的公众号auto_driver_ai(Ai fighting), 第一时间获取更新内容。

  • 6
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值