北大&理想提出GeoDrive：具有精确动作控制的3D几何信息世界模型-CSDN博客

点击下方卡片，关注“自动驾驶之心”公众号

今天自动驾驶之心为大家分享北大&理想最新的工作—GeoDrive！具有精确动作控制的3D几何信息世界模型。如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『世界模型』技术交流群

论文作者 | Anthony Chen等

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

近年来，世界模型（world models）彻底改变了动态环境的仿真，使系统能够预见未来状态并评估潜在的操作。在自动驾驶领域，这些能力有助于车辆预判其他道路使用者的行为、进行风险感知规划、加速仿真中的训练，并适应新场景，从而提高安全性与可靠性。目前的方法在保持稳健的3D几何一致性或处理遮挡时存在缺陷，这两点对于可靠的自动驾驶安全评估至关重要。为了解决这些问题，我们提出了GeoDrive，它将稳健的3D几何条件明确地整合到驾驶世界模型中，以增强空间理解和操作可控性。具体来说，我们首先从输入帧中提取3D表示，然后基于用户指定的自车轨迹获得其2D渲染。为了实现动态建模，我们在训练期间提出了一种动态编辑模块，通过编辑车辆的位置来增强渲染效果。广泛的实验表明，我们的方法在动作准确性和3D空间感知方面显著优于现有模型，从而实现了更加真实、灵活和可靠的场景建模，提高了自动驾驶的安全性。此外，我们的模型可以推广到新的轨迹，并提供交互式场景编辑功能，如目标编辑和目标轨迹控制。

论文链接：https://arxiv.org/abs/2505.22421
代码链接：https://github.com/antonioo-c/GeoDrive

前沿的更迭速度很快，有没有一个专业的技术社区一直follow学术界的前沿研究和工业界的量产落地？带着这个想法，我们打造了『自动驾驶之心知识星球』。我们为大家准备了大额新人优惠...

端午节大额新人优惠！欢迎扫码加入~

引言

驾驶世界模型通过模拟三维动态环境，能够实现一系列关键功能，包括轨迹一致的视角合成、符合物理规律的运动预测以及安全感知的场景重建和生成。特别是，生成视频模型已成为自动驾驶系统中自车运动预测和动态场景重建的有效工具。它们能够合成与轨迹一致的视觉序列，这对于开发能够预见环境交互同时保持物理合理性的自主系统至关重要。

尽管取得了这些进展，大多数现有方法由于依赖二维空间优化，缺乏足够的三维几何感知能力。这种不足导致在新视角下的结构不连贯以及物理上不合理的目标交互，这对密集交通中的防碰撞等安全关键任务尤其有害。此外，现有的方法通常依赖于密集标注（例如高清地图序列和三维边界框轨迹）来实现可控性，仅能重现预定的动作，而无法理解车辆动力学。一种更灵活的方法是从单张（或少量）图像中推断动态先验，同时以期望的自车轨迹为条件。然而，当前基于数值相机参数进行微调的方法缺乏对三维几何的理解，从而影响了其动作可控性和一致性。

一个可靠的驾驶世界模型应满足三个标准：1）静态基础设施和动态智能体之间具有刚性的时空一致性；2）对自车轨迹的三维可控性；3）非自车智能体的运动模式需符合运动学约束。

我们通过一个混合神经-几何框架实现了这些需求，该框架显式地在整个生成序列中强制执行三维几何一致性。首先，我们从单目输入中构建三维结构先验，然后沿着用户指定的相机轨迹进行投影渲染，生成基于几何的条件信号。进一步采用级联视频扩散技术，通过三维注意力去噪来优化这些投影，共同优化光度质量和几何保真度。对于动态目标，我们引入了一个物理引导编辑模块，在显式运动约束下变换目标外观，确保物理合理的交互。

我们的实验表明，GeoDrive显著增强了可控驾驶世界模型的性能。具体而言，我们的方法提高了自车动作的可控性，相比Vista模型，轨迹跟踪误差减少了42%。此外，它在视频质量指标上也取得了显著提升，包括LPIPS、PSNR、SSIM、FID和FVD。此外，我们的模型能够有效地推广到新的视角合成任务，并且在生成视频质量上超越了StreetGaussian。除了轨迹条件，GeoDrive还提供了交互式场景编辑功能，如动态目标插入、替换和运动控制。此外，通过将实时视觉输入与预测建模相结合，我们提升了视觉-语言模型的决策过程，提供了一个交互式仿真环境，使路径规划更加安全和高效。

算法详解

给定一个初始参考图像和自车轨迹，我们的框架合成了遵循输入轨迹的真实感未来帧。我们利用参考图像中的三维几何信息来指导世界建模。首先，我们重建一个三维表示（第3.1节），然后沿着用户指定的轨迹渲染视频序列并处理动态目标。渲染的视频提供了几何引导，以生成遵循输入轨迹且时空一致的视频。图2展示了整个流程。

从参考图像中提取三维表示

为了利用三维信息进行三维一致性生成，我们首先从单个输入图像中构建三维表示。我们采用 MonST3R，这是一种现成的密集立体模型，可以同时预测三维几何和相机姿态，与我们的训练范式相一致。在推理过程中，我们复制参考图像以满足 MonST3R 的跨视图匹配要求。

给定 RGB 帧，MonST3R 通过跨帧特征匹配预测每个像素的三维坐标和置信度分数：

其中表示第 t 个参考帧中像素在度量空间中的位置，测量重建的可靠性。通过对进行阈值处理（通常为），第 t 个参考帧的彩色点云为：

为了对抗序列中有效匹配和无效匹配之间的不平衡，置信度图使用焦点损失进行训练。此外，为了将静态场景几何与移动物体分离，MonST3R 使用基于Transformer的解耦器。该模块处理参考帧的初始特征（通过跨视图上下文丰富化），并将它们分为静态和动态组件。解耦器使用可学习的提示标记来分割注意力图：静态标记关注大型平面区域，动态标记关注紧凑、运动丰富的区域。通过排除动态对应关系，我们获得了一个稳健的相机姿态估计：

其中表示透视投影算子，并且只使用静态特征匹配。与传统的运动恢复结构相比，这种策略在动态城市场景中减少了38%的姿态误差。得到的点云成为我们几何支架的基础。

动态编辑下的三维视频渲染

为了实现精确的输入轨迹跟随，我们的模型渲染一个视频作为生成过程的视觉指南。我们将参考点云通过每个用户提供的相机配置使用标准的投影几何技术进行投影。每个三维点经历刚性变换进入相机坐标系，然后使用相机的内参矩阵进行透视投影，得到图像坐标：

我们只考虑深度范围内的有效投影米，并使用 z 缓冲区处理遮挡，最终生成每个相机位置的渲染视图。

静态渲染的局限性

由于我们仅使用第一帧的点云，渲染的场景在整个序列中保持静态。这与现实世界的自动驾驶情境存在显著差异，在那里车辆和其他动态物体不断运动。我们的渲染静态性质未能捕捉到区分自动驾驶数据集与传统静态场景的动态本质。

动态编辑

为了解决这一局限性，我们提出动态编辑以生成具有静态背景和移动车辆的渲染。具体来说，当用户提供场景中移动车辆的一系列二维边界框信息时，我们动态调整其位置以在渲染中创建运动错觉。这种方法不仅在生成过程中引导自车的轨迹，还引导场景中其他车辆的移动。图3提供了这一过程的说明。这样的设计显著减少了静态渲染与动态现实场景之间的差异，同时实现了对其他车辆的灵活控制——这是现有方法如 Vista和 GAIA所无法实现的能力。

双分支控制以确保时空一致性

虽然基于点云的渲染准确地保留了视图之间的几何关系，但它在视觉质量方面存在一些问题。渲染的视图通常包含大量遮挡、因传感器覆盖范围有限而导致的缺失区域，以及与真实相机图像相比降低的视觉保真度。为了提高质量，我们适应了一个潜在视频扩散模型来细化投影视图，同时通过特殊条件保持三维结构保真度。

在此基础上，我们进一步改进了将上下文特征集成到预训练扩散Transformer（DiT）中的方式，借鉴了 VideoPainter引入的方法。然而，我们引入了针对特定需求的关键区别。我们使用动态渲染来捕捉时间和上下文细微差别，为生成过程提供更适应性的表示。设表示我们修改后的 DiT 主干在第 i 层的特征输出，其中表示通过 VAE 编码器的动态渲染潜变量，是时间步 t 的噪声潜变量。

这些渲染通过一个轻量级条件编码器进行处理，该编码器提取必要的背景线索而不重复主干架构的大部分部分。将条件编码器的特征整合到冻结的 DiT 中的公式如下：

其中表示处理噪声潜变量和渲染潜变量的连接输入的条件编码器，表示 DiT 主干中的总层数。是一个可学习的线性变换，初始化为零，以防止在早期训练中噪声崩溃。提取的特征以结构化的方式选择性地融合到冻结的 DiT 中，确保只有相关的上下文信息引导生成过程。最终的视频序列通过冻结的 VAE 解码器解码为。

实验结果

结论

我们提出了 GeoDrive，这是一种用于自动驾驶的视频扩散世界模型，通过显式的米级轨迹控制和直接的视觉条件输入增强了动作可控性和空间准确性。我们的方法重建了三维场景，沿着期望的轨迹进行渲染，并使用视频扩散优化输出。评估表明，我们的模型在视觉真实感和动作一致性方面显著优于现有模型，支持诸如非自车视角生成和场景编辑等应用，从而设定了新的基准。

然而，我们的性能依赖于 MonST3R 对深度和姿态估计的准确性，仅依靠图像和轨迹输入进行世界预测仍具有挑战性。未来的工作将探索结合文本条件和 VLA 理解以进一步提高真实感和一致性。

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com