直接干到未来！DriveDreamer-2：世界首个自定义驾驶场景流生成，提升50%！

最新推荐文章于 2024-10-22 07:30:23 发布

自动驾驶之心

最新推荐文章于 2024-10-22 07:30:23 发布

阅读量447

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247593040&idx=1&sn=537ee2af684a8a3f00a0057b33932946&chksm=cf7c2271f4b172870f1d715dd6ed46bf2939e32b05b87093a03f834838125323ab022933231c&scene=126&sessionid=0

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『世界模型』技术交流群

论文作者 | Guosheng Zhao

编辑 | 自动驾驶之心

写在前面&笔者的个人理解

世界车型在自动驾驶方面表现出了优势，尤其是在多视图驾驶视频的生成方面。然而，在生成自定义驾驶视频方面仍然存在重大挑战。在本文中，我们提出了DriveDreamer-2，它建立在DriveDreamer的框架上，并结合了一个大语言模型（LLM）来生成用户定义的驾驶视频。具体来说，LLM接口最初被合并以将用户的查询转换为代理轨迹。随后，根据轨迹生成符合交通规则的HDMap。最终，我们提出了统一多视图模型，以增强生成的驾驶视频的时间和空间连贯性。DriveDreamer-2是世界上第一款生成自定义驾驶视频的世界模型，它可以以用户友好的方式生成不常见的驾驶视频（例如，车辆突然驶入）。此外，实验结果表明，生成的视频增强了驾驶感知方法（如3D检测和跟踪）的训练。此外，DriveDreamer-2的视频生成质量超过了其他最先进的方法，FID和FVD得分分别为11.2和55.7，相对提高了～30%和～50%。

开源链接：https://drivedreamer2.github.io/

总结来说，本文的主要贡献如下：

我们推出DriveDreamer-2，这是世界上第一款以用户友好的方式生成虚拟驾驶视频的车型。
我们提出了一种仅使用文本提示作为输入的交通仿真管道，可用于生成用于驾驶视频生成的各种交通条件。
UniMVM旨在无缝集成视图内和视图间的空间一致性，提高生成的驾驶视频的整体时间和空间一致性。
大量实验表明，DriveDreamer-2可以制作各种定制的驾驶视频。此外，DriveDreamer-2与以前性能最好的方法相比，可将FID和FVD提高约30%和约50%。此外，DriveDreamer-2生成的驾驶视频增强了对各种驾驶感知方法的训练。

详解DriveDreamer-2

图2展示了DriveDreamer-2的总体框架。首先提出了一种定制的交通仿真来生成前台代理轨迹和后台HDMaps。具体而言，DriveDreamer-2利用微调后的LLM将用户提示转换为代理轨迹，然后引入HDMap生成器，使用生成的轨迹作为条件来仿真道路结构。DriveDreamer-2利用定制的流量仿真管道，能够为后续视频生成生成生成各种结构化条件。在DriveDreamer架构的基础上，提出了UniMVM框架，以统一视图内和视图间的空间一致性，从而增强生成的驾驶视频的整体时间和空间一致性。在接下来的章节中，我们将深入研究定制交通fang'zhen和UniMVM框架的细节。

自定义交通仿真

在所提出的定制交通仿真管道中，构建了一个轨迹生成函数库来微调LLM，这有助于将用户提示转移到不同的代理轨迹中，包括切入和掉头等动作。此外，该管道包含HDMap生成器，用于仿真背景道路结构。在此阶段，先前生成的代理轨迹充当条件输入，确保生成的HDMap符合流量约束。在下文中，我们将详细介绍LLM的微调过程和HDMap生成器的框架。

用于轨迹生成的微调LLM以前的交通仿真方法需要复杂的参数规范，包括代理的速度、位置、加速度和任务目标等细节。为了简化这一复杂的过程，我们建议使用构建的轨迹生成函数库对LLM进行微调，从而将用户友好的语言输入有效地转换为全面的交通仿真场景。如图3所示，构建的函数库包括18个函数，包括代理函数（转向、等速、加速度和制动）、行人函数（行走方向和速度）以及其他实用函数，如保存轨迹。在这些函数的基础上，文本到Python脚本对是手动策划的，用于微调LLM（GPT-3.5）。脚本包括一系列基本场景，如变道、超车、跟随其他车辆和执行掉头。此外，我们还包括更不常见的情况，如行人突然横穿马路，车辆驶入车道。以用户输入的车辆切入为例，相应的脚本包括以下步骤：首先生成切入轨迹（agent.cut_in（）），然后生成相应的ego-car轨迹（agent.forward（））；最后利用实用程序的保存功能，以数组形式直接输出ego-car和其他代理的轨迹。有关更多详细信息，请参阅补充材料。在推理阶段，我们将提示输入扩展到预定义的模板，微调后的LLM可以直接输出轨迹阵列。

HDMap生成综合交通仿真不仅需要前台代理的轨迹，还需要生成后台HDMap元素，如车道和人行横道。因此，提出了HDMap生成器，以确保背景元素与前景轨迹不冲突。在HDMap生成器中，我们将背景元素生成公式化为条件图像生成问题，其中条件输入是BEV轨迹图，目标是BEV HDMap。与以前主要依赖于轮廓条件（边缘、深度、方框、分割图）的条件图像生成方法不同，所提出的HDMap生成器探索前景和背景交通元素之间的相关性。具体地，HDMap生成器是在图像生成扩散模型上构建的。为了训练生成器，我们对HDMap数据集进行轨迹规划。在轨迹图中，指定不同的颜色来表示不同的代理类别。同时，目标HDMap包括三个通道，分别表示车道边界、车道分隔线和行人交叉口。在HDMap生成器中，我们使用2D卷积层的堆栈来合并轨迹图条件。然后，使用将生成的特征图无缝集成到扩散模型中（有关其他架构详细信息，请参见补充）。在训练阶段，扩散正向过程逐渐将噪声ε添加到潜在特征中，从而产生噪声潜在特征。然后我们训练εθ来预测我们添加的噪声，并且HDMap生成器φ通过:

如图4所示，利用所提出的HDMap生成器，我们可以基于相同的轨迹条件生成不同的HDMap。值得注意的是，生成的HDMaps不仅遵守交通约束（位于车道分隔带两侧的车道边界和十字路口的人行横道），而且与轨迹无缝集成。

UniMVM

利用定制交通仿真生成的结构化信息，可以通过DriveDreamer的框架生成多视图驾驶视频。然而，在以前的方法中引入的视图关注并不能保证多视图的一致性。为了缓解这个问题，采用图像或视频条件来生成多视图驾驶视频。虽然这种方法增强了不同观点之间的一致性，但它是以降低发电效率和多样性为代价的。在DriveDreamer-2中，我们在DriveDreamer框架中引入了UniMVM。UniMVM旨在统一多视图驾驶视频的生成，无论是否具有相邻视图条件，这确保了时间和空间的一致性，而不会影响生成速度和多样性。

多视图视频联合分布可以通过以下方式获得:

如图5所示，我们将UniMVM的范式与DriveDreamer[56]和Drive-WM[59]的范式进行了比较。与这些同行相比，UniMVM将多个视图统一为一个完整的视频生成补丁，而不引入跨视图参数。此外，可以通过调整掩码m来完成各种驱动视频生成任务。特别地，当m被设置为掩码未来的T−1帧时，UniMVM基于第一帧的输入启用未来视频预测。将m配置为屏蔽｛FL、FR、BR、B、BL｝视图，使UniMVM能够利用前视图视频输入实现多视图视频输出。此外，当m被设置为屏蔽所有视频帧时，UniMVM可以生成多视图视频，并且定量和定性实验都验证了UniMVM能够以增强的效率和多样性生成时间和空间相干的视频。

视频生成基于UniMVM公式，可以在DriveDreamer[56]的框架内生成驾驶视频。具体来说，我们的方法首先统一了交通结构化条件，这导致了HDMaps和3D盒子的序列。注意，3D框的序列可以从代理轨迹导出，并且3D框的大小是基于相应的代理类别来确定的。与DriveDreamer不同，DriveDreamer-2中的3D盒子条件不再依赖于位置嵌入和类别嵌入。相反，这些框被直接投影到图像平面上，起到控制条件的作用。这种方法消除了引入额外的控制参数，如[56]中所述。我们采用三个编码器将HDMaps、3D框和图像帧嵌入到潜在空间特征yH、yB和yI中。然后，我们将空间对齐的条件yH，yB与Zt连接起来，以获得特征输入Zin，其中Zt是通过前向扩散过程从yI生成的噪声潜在特征。对于视频生成器的训练，所有参数都通过去噪分数匹配进行优化[26]（详见补充）。

实验

用户自定义驾驶视频生成

DriveDreamer-2提供了一个用户友好的界面，用于生成驾驶视频。如图1a所示，用户只需要输入文本提示（例如，在雨天，有一辆汽车驶入）。然后DriveDreamer-2生成与文本输入对齐的多视图驾驶视频。图6展示了另外两个自定义驾驶视频。上图描绘了白天ego汽车向左变道的过程。下图展示了一个意想不到的行人在夜间横穿马路，促使ego汽车刹车以避免碰撞。值得注意的是，生成的视频展示了非凡的真实感，我们甚至可以观察到远光灯在行人身上的反射。

生成视频的质量评估

为了验证视频生成质量，我们将DriveDreamer-2与nuScenes验证集上的各种驾驶视频生成方法进行了比较。为了进行公平的比较，我们在三种不同的实验设置下进行了评估——无图像条件、有视频条件和第一帧多视图图像条件。实验结果如表1所示，表明DriveDreamer-2在所有三种设置中都能始终如一地获得高质量的评估结果。具体而言，在没有图像条件的情况下，DriveDreamer-2的FID为25.0，FVD为105.1，显示出比DriveDreamer的显著改进。此外，尽管仅限于单视图视频条件，但与使用三视图视频条件的DriveWM相比，DriveDreamer-2在FVD方面表现出39%的相对改善。此外，当提供第一帧多视图图像条件时，DriveDreamer-2实现了11.2的FID和55.7的FVD，大大超过了以前的所有方法。

更多可视化：

结论和讨论

本文介绍了DriveDreamer-2，这是DriveDreamer框架的创新扩展，开创了用户自定义驾驶视频的生成。DriveDreamer-2利用大型语言模型，首先将用户查询转移到前台代理轨迹中。然后，可以使用所提出的HDMap生成器生成背景交通状况，并将代理轨迹作为条件。生成的结构化条件可以用于视频生成，我们提出了UniMVM来增强时间和空间的一致性。我们进行了广泛的实验来验证DriveDreamer-2可以生成不常见的驾驶视频，例如车辆的突然机动。重要的是，实验结果展示了生成的视频在增强驾驶感知方法训练方面的效用。此外，与最先进的方法相比，DriveDreamer-2显示出卓越的视频生成质量，FID和FVD得分分别为11.2和55.7。这些分数代表了大约30%和50%的显著相对改进，肯定了DriveDreamer-2在多视图驾驶视频生成方面的功效和进步。

参考

[1] DriveDreamer-2: LLM-Enhanced World Models for Diverse Driving Video Generation

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近2700人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦2D/3D目标检测、语义分割、车道线检测、目标跟踪、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、在线地图、点云处理、端到端自动驾驶、SLAM与高精地图、深度估计、轨迹预测、NeRF、Gaussian Splatting、规划控制、模型部署落地、cuda加速、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）