超越其它所有SOTA!Drive-WM:与现有端到端规划兼容的第一个自动驾驶世界模型!...

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

>>点击进入→自动驾驶之心【世界模型】技术交流群

论文作者 | 汽车人

编辑 | 自动驾驶之心

最近世界模型的工作好多,今天分享一个与现有端到端规划模型兼容的驾驶世界模型,可以生成高质量、一致和可控的多视角视频,感觉2024年的坑基本快被占完了,冲!

当前在自动驾驶领域,提前预测未来事件并评估可预见的风险非常重要,这可以使自动驾驶汽车能够更好地规划行动,提高道路上的安全性和效率。Drive WM是第一个与现有端到端规划模型兼容的驾驶世界模型。通过视图分解促进的联合时空建模,模型在驾驶场景中生成高保真多视图视频。基于其强大的生成能力,这里首次展示了应用世界模式进行安全驾驶规划的潜力。Drive WM能够基于不同的驾驶动作驾驶到多个未来,并根据基于图像的奖励确定最佳轨迹。在真实世界驾驶数据集的评估验证了方法可以生成高质量、一致和可控的多视角视频,为真实世界的模拟和安全规划开辟了可能性!

出发点是什么?

端到端自动驾驶的出现最近引起了越来越多的关注。这些方法将多传感器数据作为输入,并在联合模型中直接输出规划结果,从而实现所有模块的联合优化。然而,当面临分布外(OOD)情况时,纯根据专家驾驶轨迹训练的端到端规划器是否具有足够的泛化能力是值得怀疑的。如下图所示,当自车的位置横向偏离中心线时,端到端规划器难以生成合理的轨迹!

cec049178733129750fd8fee506ffab0.png

为了缓解这个问题,我们建议通过开发一个预测模型来提高自主驾驶的安全性,该模型可以在决策之前预见planner 的失效。该模型被称为世界模型,旨在根据当前状态和自车行为预测未来状态。通过提前对未来进行可视化设想,并在实际决策前获得不同未来的反馈,可以提供更合理的规划,增强端到端自动驾驶的通用性和安全性。

然而,这里主要存在三个挑战:

(1)驾驶世界模型需要在高分辨率像素空间中进行建模。先前的低分辨率图像或矢量化状态空间方法不能有效地表示现实世界中众多细粒度或不可矢量化的事件。此外,向量空间世界模型需要额外的向量标注,并且受到感知模型的状态估计噪声的影响。

(2) 生成多视图一致的视频很困难。先前的工作仅限于单视图视频或多视图图像生成,这使得多视图视频生成成为自动驾驶所需的综合环境观测的一个悬而未决的问题。

(3) 灵活适应各种不同的条件是具有挑战性的,如不断变化的天气、照明、ego 行动和道路/障碍物/车辆layouts。

受潜在视频扩散模型的启发,Drive-WM引入了多视图和时间建模,用于联合生成多个视图和帧。为了进一步增强多视图的一致性,建议对联合建模进行因子分解,以预测以相邻视图为条件的中间视图,从而大大提高视图之间的一致性。Drive-WM还引入了一个简单而有效的统一条件界面,可以灵活使用图像、文本、3D布局和动作等异构条件,极大地简化了条件生成。最后,在多视角世界模型的基础上,探索了端到端的规划应用程序,以增强自动驾驶的安全性,如图1所示。

1feaf43df24eaecd9109fb6e06f6f53b.png

当前领域发展的情况

视频生成旨在生成逼真的视频样本。过去已经提出了各种生成方法,包括基于VAE的(变分自动编码器),基于GAN的(生成对抗性网络),基于流的和自回归模型。值得注意的是,最近基于扩散的模型在图像生成领域的成功激发了人们对将扩散模型应用于视频生成领域的兴趣。基于扩散的方法已经在真实性、可控性和时间一致性方面产生了显著的增强。文本条件视频生成由于其可控的生成而引起了更多的关注,并且出现了大量的方法。

视频预测可以被视为一种特殊的生成形式,利用过去的观测来预测未来的帧。特别是在自动驾驶中,DriveGAN学习模拟以车辆控制信号为输入的驾驶场景。GAIA1和DriveDreamer进一步扩展到动作条件扩散模型,增强了生成视频的可控性和真实性。然而,这些先前的作品仅限于单目视频,未能理解整个3D环境。我们开创了多视角视频的生成,使其能够更好地与当前的BEV感知和规划模型集成。

世界模型学习世界的一般表示,并预测由一系列动作产生的未来世界状态。最近,驾驶场景中的学习世界模型受到了关注。MILE采用基于模型的模仿学习方法来联合学习CARLA中的动力学模型和驾驶行为。上述工作仅限于模拟器或控制良好的实验室环境。相比之下,Drive-WM世界模型可以与现有的端到端驾驶规划器集成,以提高现实世界场景中的规划性能。

整体结构

Drive-WM框架如下所述,(a) 说明了所提出方法的训练和推理pipeline。(b) 可视化用于控制多视图视频的生成的统一条件。(c) 表示因子分解多视图生成的概率图。它将(a)的3视图输出作为输入来生成其他视图,增强了多视图的一致性。

562c4a0ffeff752f1a29b53406176f44.png

多视角视频生成

cbf1249da734c9507121e11e70bfa8c4.png

1)多视图视频的联合建模

为了对multiview 时间数据进行联合建模,从研究充分的图像扩散模型开始,并通过引入额外的时间层和multiview层将其适应于multiview-temporal 场景。首先介绍联合建模的总体公式,并详细说明了时间层和multiview层。

假设访问多视图视频的数据集,使得,~是一个具有K个视图的T图像序列,具有高度以及宽度H和W。给定编码视频潜在表示:

a3381dfbf3f5f78160a7aa7562990402.png

扩散输入:

40fff53ad7ac0079d46bb45cd90de755.png

去噪模型表示为:

7bda258f3151b3c3354cb25cf31faac2.png

时间编码层。首先引入时间层来将预训练的图像扩散模型提升为时间模型。按照VideoLDM中的既定实践,在每个块中的2D空间层之后附加时间编码层。空间层以逐帧和view-wise的方式编码。之后,重新排列潜在的以保持时间维度,表示为(TK)CHW→(THW)KC,以在时空维度THW中应用3D卷积。并将标准的多头自注意应用于时间维度,增强了时间依赖性。

Multiview temporal tuning. 给定强大的图像扩散模型,不会从头开始训练时间multi-view网络。相反,首先用单视图图像数据和条件训练标准图像扩散模型,该模型对应于方程中的参数θ(公式1)。然后,冻结参数θ,并用视频数据微调附加的时间层(ξ)和multiview layers(ψ)!

2)联合多视图建模的因子分解

尽管第上述中的联合分布可以在不同视图之间产生相似的样式,但很难确保其重叠区域的严格一致性。在本小节中,引入分布因子分解来增强多视点一致性。这里首先给出了因子分解的公式,然后描述了它如何与上述联合建模相配合。

设xi表示第i个视图的样本,上述小节基本上对联合分布p(x1,…,K)进行建模为:

089f6020236b8be5955e9ba3aac5fc5a.png

等式2表明不同的视图是以自回归的方式生成的,其中新视图以现有视图为条件。这些条件分布可以确保更好的视图一致性,因为新视图知道现有视图中的内容。然而,这种自回归生成是低效的,使得这种全因子分解在实践中不可行!

为了简化方程2中的建模,将所有视图划分为两种类型:参考视图xr和缝合视图xs。例如,在nuScenes中,参考视图可以是{F,BL,BR},缝合视图可以是{FL,B,FR}。使用术语“缝合”是因为缝合视图看起来是从其两个相邻的参照视图“缝合”而来的。属于同一类型的视图彼此不重叠,而不同类型的视图可能重叠。这启发首先对参考观view的联合分布进行建模。这里,联合建模对于那些不重叠的参考视图是有效的,因为它们不需要严格的一致性。然后,xs的分布被建模为以xr为条件的条件分布。图4说明了nuScenes中多view分解的基本概念。从这个意义上讲,将等式2简化为:

b729468561954a8172638f766d6878b4.png

考虑到时间相干性,将之前的帧作为附加条件,方程3可以重写为:

27c0def84d51e7b03796df45a1f43893.png

3)统一条件生成

由于现实世界的复杂性,世界模型需要利用多种异构条件。这里使用了初始context  frame、文本描述、ego action、3D框、BEV地图和参考视图。为了更好的可控性,可以进一步包括更多的条件。为每一个开发专门的接口都是耗时且不灵活的,无法包含更多的条件。为了解决这个问题,这里引入了一个统一的条件接口,它简单而有效地集成了多个异构条件。

端到端Planning的世界模型

盲目地Planning action而不预见后果是危险的。利用Drive-WM世界模型,可以对可能的未来进行全面评估,以实现更安全的规划。下面将探讨使用自动驾驶世界模型的端到端规划,这是一个未知的领域。

1)Tree-based Rollout with Actions

在每个时间步长,利用世界模型为从规划器中采样的候选轨迹生成预测的未来场景,使用基于图像的奖励函数评估未来,并选择最佳轨迹来扩展规划树。

如图5所示,将 planning tree定义为一系列预测的ego轨迹,这些轨迹会随着时间的推移而演变。对于每一次,camera都可以捕捉到真实的multiview图像。预先训练的planner将真实的multiview图像作为输入,并对可能的候选轨迹进行采样。为了与主流planner的输入兼容,将其在时间t的动作定义为每个轨迹的,,其中xt和yt是时间t的ego位置。给定这些动作,组合来生成视频。生成后,利用基于图像的奖励函数来选择最佳轨迹作为决策。可以重复这样的生成决策过程以形成基于树的rollout。

610215c90dabc752e11a317c8b1f77f4.png

2)Image-based Reward Function

在生成planned轨迹的未来视频后,需要奖励函数来评估多个未来的稳健性。首先从感知结果中获得奖励。利用基于图像的3D检测器和在线HDMap预测器来获得对生成的视频的感知结果。然后,受传统planner的启发,定义了地图奖励和目标奖励。地图奖励包括两个因素,远离路缘的距离,鼓励ego车辆停留在正确的可行驶区域,以及中心线一致性,防止ego频繁变道和横向偏离车道。实物奖励是指在纵向和横向方向上与其他道路使用者的距离。这种奖励避免了自车与其他道路使用者之间的碰撞。总奖励定义为目标奖励和地图奖励的乘积。这里最终选择了具有最大回报的 ego prediction。然后, ego prediction 转发到下一个时间戳,并迭代地规划后续轨迹。

由于所提出的世界模型在像素空间中操作,它可以进一步从非矢量化表示中获得奖励,以处理更一般的情况。例如,洒水车喷出的水和受损的路面很难被监督感知模型矢量化,而根据大量未标记数据训练的世界模型可以在像素空间中生成此类情况。利用最近强大的基础模型,如GPT-4V,规划过程可以从非矢量化表示中获得更全面的回报。

实验分析对比

数据集。采用nuScenes数据集进行实验,这是最受欢迎的3D感知和规划数据集之一。它总共包括700个训练视频和150个验证视频。每个视频包括大约20秒被六个环绕camera摄像头拍摄到。

Training scheme。将原始图像从1600×900裁剪并调整大小至384×192。模型是用稳定扩散检查点初始化的。所有实验都是在A40(48GB)GPU上进行的。

质量评估。为了评估生成的视频的质量,使用FID(Frechet Inception Distance)和FVD(Frechet-video Distance)作为主要指标。

多视图一致性评估。引入了一种新的度量标准,即关键点匹配(KPM)分数,来评估多视图的一致性。该指标利用预先训练的匹配模型来计算匹配关键点的平均数量,从而量化KPM得分。在计算过程中,对于每个图像,首先计算当前视图与其两个相邻视图之间匹配的关键点的数量。随后计算了生成数据中的匹配点数量与真实数据中匹配点数量之间的比率。最后,对所有生成的图像的这些比率进行平均,以获得KPM分数。在实践中,在验证集中统一选择每个场景8帧来计算KPM。

可控性评估。为了评估视频内容生成的可控性,使用预先训练的感知模型来评估生成的图像。根据之前的方法,采用CVT进行前景和背景分割。此外,还评估了3D检测和在线地图构建。

规划评估。遵循开环评估指标进行端到端规划,包括与GT轨迹的L2距离和物体碰撞率。

Model variants。支持基于动作的视频生成和基于布局的视频生成。前者给出了每一帧的自我动作作为条件,而后者给出了每帧的布局(3D框、地图信息)

1)超越其它所有方法

nuScenes上的多视图视频生成性能。对于每个任务,测试在nuScenes训练集上训练的相应模型,Drive WM在质量和可控性评估方面超越了所有其他方法。

74895a506e30871ff9664321d062ee51.png

更多消融实验:

2a5ca38dc703da0c88f5fb350aed1dad.png

2)用世界模型探索规划任务

尝试有两个方面:(1) 首先证明,评估生成的future有助于规划。(2) 然后展示了在一些领域外的情况下,可以利用世界模型来改进规划!

7b9d52f92ae52c9a1eaedc95c4936087.png 77bca126324b30c35118742253ddf8d8.png c11348cb2ed2c4927e45d3c499615132.png

3)反事实事件

给定初始观察和动作,Drive WM可以生成反事实事件,例如转身和在不可驾驶区域上奔跑(图7),这与训练数据明显不同。生成此类反事实数据的能力再次表明,Drive WM具有预见和处理领域外案例的潜力!

参考

[1] Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous Driving.

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署协同感知语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

e1ffafb6ab0f6885544b0233180ca962.png 视频官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

近2000人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

0e4caa57d5acaf2881305f4a8ada9d4a.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

b155dbb1896df343a5e27259e7db8fd0.jpeg

④【自动驾驶之心】平台矩阵,欢迎联系我们!

c727f1887970e6ad8e31843db14e4c56.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值