性能爆拉30%！英伟达DreamDrive：时空一致下的生成重建大一统新方案~-CSDN博客

点击下方卡片，关注“自动驾驶之心”公众号

今天自动驾驶之心为大家分享英伟达最新的工作—DreamDrive！视觉生成质量暴力提升30%！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

论文作者 | Jiageng Mao等

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

从自车的驾驶轨迹中生成真实的视觉图像是实现自动驾驶模型可扩展训练的关键一步。基于重建的方法从log中生成3D场景，并通过神经渲染合成几何一致的驾驶视频，但它们对昂贵标注的依赖限制了它们在野外驾驶场景中的泛化能力。另一方面，生成模型可以以更通用的方式合成动作条件驾驶视频，但往往难以保持3D视觉的一致性。本文介绍了DreamDrive，这是一种结合生成和重建优点的4D时空场景生成方法，用于合成具有3D一致性的可推广4D驾驶场景和动态驾驶视频。具体来说，我们利用视频扩散模型的生成能力来合成一系列视觉参考，并通过一种新的混合高斯表示将其进一步提升到4D。给定一个驾驶轨迹，然后我们通过高斯飞溅渲染3D一致的驾驶视频。生成先验的使用使我们的方法能够从野外驾驶数据中生成高质量的4D场景，而神经渲染则确保从4D场景生成3D一致的视频。对nuScenes和室外驾驶数据的广泛实验表明，DreamDrive可以生成可控和通用的4D驾驶场景，以高保真度和3D一致性合成驾驶视频的新视图，以自监督的方式分解静态和动态元素，并增强自动驾驶的感知和规划任务。

论文链接：https://arxiv.org/abs/2501.00601

这里也推荐下平台最新推出的《面向科研&落地的3DGS全栈实战教程》，3DGS全栈技术从入门到精通！

介绍

基于自车的轨迹生成驾驶视频是自动驾驶中的一个关键问题。动作条件视频生成允许自动驾驶汽车预测未来的场景，做出相应的响应，并超越专家轨迹进行推广，这对于自动驾驶模型的可扩展训练至关重要。为了应对这一挑战，出现了两个系列的工作：基于重建的方法和基于生成的方法。基于重建的方法从log中模拟3D场景，然后通过神经渲染技术（如NeRF或3D高斯飞溅）生成动作条件视觉观察。这些方法可以合成3D一致和真实的视觉观察结果，但它们严重依赖于注释良好的驾驶日志，其中包括标定的相机参数、目标框和3D点云，这限制了它们在室外驾驶数据中的可扩展性。另一方面，基于生成的方法可以从野外驾驶数据中学习，并通过图像或视频扩散模型合成动作条件下的动态驾驶视频。然而，视频生成存在帧间3D几何一致性差的问题，这可能会破坏自动驾驶合成视觉观察的可靠性。因此，为自动驾驶综合通用和3D一致的视觉观察仍然是一个悬而未决的挑战。

为了应对这一挑战，我们提出了DreamDrive，这是一种用于自动驾驶的4D场景生成方法。我们的核心想法是将视频扩散先验的生成能力与3D高斯飞溅的几何一致性渲染相结合。我们将2D视觉参考从视频扩散模型提升到4D时空场景中，其中自车载体通过高斯飞溅导航和合成新的视图观察。视频扩散先验增强了我们方法的泛化能力，能够从野外驾驶数据中生成4D场景，而高斯飞溅确保了新视图合成过程中的3D一致性。这种方法使DreamDrive能够产生高质量、3D一致的视觉观察，并对各种驾驶场景具有很强的泛化能力。

尽管直观，但从生成的视觉参考中准确建模4D场景仍然非常具有挑战性。与标注好的驾驶数据集不同，生成的视觉参考缺乏关键信息，如相机参数、物体位置和深度数据，这阻碍了4D建模。此外，视频扩散模型中固有的3D不一致性加剧了这个问题，导致传统的高斯表示过拟合训练视图，并在新的视图合成中失败。为了解决这些问题，我们引入了一种自监督混合高斯表示。我们的方法利用与时间无关的高斯模型来模拟静态背景，并利用与时间相关的高斯模型对动态目标进行建模，将它们组合成一个统一的4D场景。首先，我们提出了一种自监督方法，可以仅通过图像监督将场景分解为静态和动态区域。接下来，我们引入时空聚类将3D高斯聚类分为静态和动态高斯聚类，有效地减轻了4D建模中的虚假动态。最后，我们优化了具有时间相关和时间无关表示的高斯聚类，以在图像监督下构建4D场景。通过混合高斯表示，我们的方法能够合成3D一致的新视图驱动视频。我们的方法适用于纯图像监控，消除了对数据注释的需求，使其更具可扩展性和通用性，适用于野外驾驶数据。

我们在nuScenes数据集和野生驾驶场景中评估了我们的方法，展示了我们4D场景生成的可控性和泛化能力。我们的方法使用混合高斯表示，可以生成高质量、3D一致的新视图驱动视频，视觉质量比以前的方法提高了30%。此外，我们还展示了我们的方法在自动驾驶感知和规划任务中的应用。

DreamDrive方法详解

DreamDrive是一种用于自动驾驶的4D时空场景生成方法。我们的方法概述如图2所示。DreamDrive遵循2D-3D-4D渐进式生成过程。我们首先利用视频扩散先验来生成2D视觉参考，然后进行高斯初始化将其提升到3D。接下来，我们提出了一种新的自监督场景分解方法，该方法采用基于聚类的分组策略，在4D时空域中分离静态和动态区域。最后，我们引入混合高斯表示来对静态结构和动态目标进行建模，以生成4D场景。

视频扩散先验。视频扩散模型在模拟视觉数据的时间动态方面非常有效，但仅依赖它们进行轨迹条件视频生成可能会导致3D不一致，因为它们是为2D图像生成而设计的，没有考虑底层的3D结构。在我们的方法中，我们使用视频扩散先验来生成初始视觉参考，然后将其提升到4D空间进行场景生成和3D一致的视频渲染。具体来说，我们使用在驱动数据上训练的视频扩散模型来生成一系列参考图像，并从早期层中提取潜在特征，以捕获有价值的视觉动态，用于静态动态分解。该过程正式表示为：

高斯初始化。在没有相机姿态和3D信息的情况下，将生成的图像提升到4D空间是相当具有挑战性的。因此，相机参数和3D结构的稳健估计对于4D场景生成的可靠初始化至关重要。虽然之前的工作使用COLMAP来估计粗略的3D几何，但其稀疏的点云不足以对大规模和无界的驾驶场景进行建模。相反，我们采用端到端的多视图立体网络来生成像素对齐的密集3D几何体，同时恢复相机姿态。具体来说为每张图像生成密集的、与参考像素对齐的3D点云。使用Weiszfeld算法估计相机内参，并通过全局对齐帧间的点云来计算相机外部函数。聚集的点云形成密集的场景级点云，用于初始化3D高斯参数，产生一组高斯Ginit。这些3D高斯分布进一步丰富了像素对齐的潜在特征Zref。整个过程可以表示为：

准确捕捉动态目标的运动。自车监督的场景分解。混合建模的一个关键挑战是在没有额外注释的情况下分离静态和动态区域。为了解决这个问题，我们的关键见解是，图像误差图是区分静态和动态区域的有效指标。具体来说，我们首先通过假设所有初始高斯Ginit都是静态的来优化整个场景。然后，我们将优化的静态高斯分布映射到静态图像Istatic中：

使用高斯聚类进行分组。由于生成的视觉参考中固有的3D不一致性，Iref中经常出现伪动力学，如静态结构中的局部变形。这导致将动态高斯分布错误地分配给静态目标，并对4D场景建模和新的视图合成产生负面影响。为了提高场景分解的鲁棒性，我们引入了一种新的基于聚类的分组策略。我们的关键见解是，目标通常作为一个整体移动，即同一目标中的高斯分布可能具有相同的动态属性。由于我们没有目标注释，我们引入了“时空聚类”来将高斯分布聚类。如果一个簇中的大多数高斯分布是静态的，这意味着整个部分应该是静态的。我们为所有部分分配静态标签，即使有些最初被归类为动态的，反之亦然。该过程可以表示为

混合高斯表示法。场景分解使我们能够用不同的高斯分布表示静态和动态组件。静态高斯模型G静态模型元素，如道路和建筑物，参数G（x，r，s，α，c）随时间保持不变，确保静态结构的准确渲染。

最后，我们将Gstatic和Gdynamic结合到一个4D时空场景中，并通过将它们叠加到图像上来优化它们的参数：

实验结果

结论

本文提出了DreamDrive，这是一种新的自动驾驶4D场景生成方法，将视频扩散模型的生成能力与3D高斯飞溅的几何一致性相结合。使用混合高斯表示，我们的方法在4D驾驶场景中准确地建模静态和动态元素，而无需手动注释。实验表明，DreamDrive可以生成高质量、几何形状一致的驾驶视频，适用于各种驾驶场景，并增强自动驾驶中的感知和规划任务。

① 2025中国国际新能源技术展会

自动驾驶之心联合主办中国国际新能源汽车技术、零部件及服务展会。展会将于2025年2月21日至24日在北京新国展二期举行，展览面积达到2万平方米，预计吸引来自世界各地的400多家参展商和2万名专业观众。作为新能源汽车领域的专业展，它将全面展示新能源汽车行业的最新成果和发展趋势，同期围绕个各关键板块举办论坛，欢迎报名参加。

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎扫描加入

③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）