MagicDrive3D：任意视角的高质量3D驾驶场景渲染！港中文最新

最新推荐文章于 2025-04-03 07:31:15 发布

自动驾驶之心

最新推荐文章于 2025-04-03 07:31:15 发布

阅读量852

点赞数

文章标签： 3d

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247608366&idx=2&sn=16d4d74658b0cfb87a5cc3e7747fd228&chksm=cfac421b07d8a8e0a6a0a2d36783a52c989c249d5533ee309c24900967caa98873a0adb61266&scene=126&sessionid=0

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『BEV感知』技术交流群

论文作者 | Ruiyuan Gao

编辑 | 自动驾驶之心

写在前面&为什么提出？

虽然用于图像和视频的可控生成模型已经取得了显著的成功，但针对3D场景的高质量模型，特别是在像自动驾驶这样的无界场景中，仍然发展不足，这主要是因为数据获取成本高昂。MagicDrive3D是一种用于可控3D街道场景生成的新颖流程，支持多条件控制，包括BEV（鸟瞰图）地图、3D目标和文本描述。与之前在训练生成模型之前进行重建的方法不同，MagicDrive3D首先训练一个视频生成模型，然后从生成的数据中进行重建。这种创新的方法使得生成过程易于控制，并可以获取静态场景，从而实现了高质量的场景重建。为了解决生成内容中的微小错误，MagicDrive3D提出了可变形的高斯映射（deformable Gaussian splatting），结合单目深度初始化和外观建模，以管理不同视角下的曝光差异。在nuScenes数据集上验证后，MagicDrive3D生成了多样且高质量的3D驾驶场景，支持任意视角的渲染，并提升了如BEV分割等下游任务的性能。我们的结果展示了该框架的卓越性能，凸显了其在自动驾驶模拟及更广泛领域中的变革潜力。

（大拇指往上滑，点击最上方的卡片关注我，整个操作只会花你 1.328 秒，然后带走未来、所有、免费的干货，万一有内容对您有帮助呢～）

领域背景介绍

随着生成模型的进步，特别是扩散模型的发展，生成3D资产的兴趣逐渐增加。虽然大量工作集中在以物体为中心的生成上，但生成开放式的3D场景仍然相对未被探索。这一差距尤为重要，因为许多下游应用，如虚拟现实（VR）和自动驾驶模拟，需要可控的3D街道场景生成，这是一个待解决的挑战。

3D感知的视图合成方法大致可以分为两种途径：无几何信息的视图合成和注重几何的场景生成。无几何信息的方法直接基于相机参数生成2D图像或视频，在照片级真实图像生成方面表现出色。然而，它们通常缺乏足够的几何一致性，限制了它们扩展到数据集之外视角的能力。另一方面，注重几何的方法（例如，GAUDI和NF-LDM）从潜在输入生成3D表示（例如，NeRF或体素网格），支持多视角渲染。尽管这些方法具有更广泛的适用性，但它们需要昂贵的数据收集，要求静态场景和一致的传感器属性，如曝光和白平衡。街景数据集，如nuScenes，通常无法满足这些要求，这使得使用这些数据集训练注重几何的3D街道场景生成模型变得极其困难。

认识到无几何信息的视图合成方法在可控生成方面的进步，它们有潜力作为数据引擎使用。它们的可控性和照片级真实感可以解决注重几何的方法所面临的挑战。然而，无几何信息方法合成的视图中的有限3D一致性，如帧之间的时间不一致性和物体的变形，对于将这两种方法集成到一个统一框架中构成了关键问题。

为了应对这些挑战，我们提出了MagicDrive3D，一个将无几何信息的视图合成和注重几何的重建相结合的新颖框架，用于可控的3D街道场景生成。如图2所示，方法首先训练一个多视角视频生成模型，以合成静态场景的多个视图。该模型使用来自物体框、道路地图、文本提示和相机姿态的控制进行配置。为了增强帧间3D一致性，加入了坐标embedding ，这些embedding 表示LiDAR坐标之间的相对变换，以精确控制帧位置。接下来，从先验知识、建模和损失函数的角度改进了生成视图的重建质量。鉴于不同相机视图之间的有限重叠，采用了单目深度先验，并提出了一种专门用于稀疏视图设置的对齐算法。此外还引入了可变形的Gaussian splatting 和appearance embedding maps ，分别处理局部动态和曝光差异。

通过广泛的实验证明，MagicDrive3D框架在生成与道路地图、3D bounding box和文本描述高度一致的逼真街道场景方面表现出色，如图1所示。展示了生成的相机视图可以增强鸟瞰图（BEV）分割任务的训练，为场景生成提供了全面的控制，并使得为自动驾驶模拟创建新颖的街道场景成为可能。值得注意的是，MagicDrive3D是首个仅使用具有六个相机视角的训练数据集实现可控3D街道场景生成的框架。

主要贡献如下：

• 提出了MagicDrive3D，这是首个有效结合无几何信息和注重几何的视图合成方法，用于可控的3D街道场景生成。MagicDrive3D根据各种控制信号生成逼真的3D街道场景，支持从任何相机视角进行渲染。

• 引入了一种相对姿态embedding 技术，以生成具有改进3D一致性的视频。此外，还通过定制技术（包括可变形的高斯splatting）增强了重建质量，以处理生成视频中的局部动态和曝光差异。

• 通过广泛的实验，证明了MagicDrive3D能够生成具有多维可控性的高质量街道场景。结果还表明，合成数据改善了3D感知任务，凸显了方法的实际益处。

MagicDrive3D方法介绍

3D Street Scene Generation

可控街景生成的直接建模面临两大挑战：场景动态和数据采集的差异。场景动态指的是场景中元素的运动和变形，而数据采集的差异则是指数据采集过程中产生的差异（例如，曝光）。由于街景摄像头的稀疏性（例如，通常只有6个camera），这两个挑战变得更加严重。因此，传统的重建-生成框架并不适用于街景生成。

图2展示了MagicDrive3D的概述。给定场景描述S作为输入，MagicDrive3D首先根据预设的相机姿态{}，将描述扩展为序列{}，其中t ∈ [0, T]，并根据条件{}生成一系列连续的多视图图像{}，其中c ∈ {1, ..., N}代表N个环视摄像头。然后，使用{}和相机姿态{}作为输入，构建场景的高斯表示。这一步包括一个使用预训练的单目深度模型的初始化过程和一个使用变形Gaussian Splatting的优化过程。因此，生成的街景不仅支持任意视图的渲染，还能准确反映不同的控制信号。

MagicDrive3D结合了无需几何信息的视图合成和注重几何信息的重建，其中控制信号由多视图视频生成器处理，而重建步骤保证了任何视图的渲染能力。这样的视频生成器有两个优势：首先，由于多视图视频生成不需要对新视图进行泛化，因此它对街景的数据依赖性较小；其次，通过条件训练，该模型能够分解控制信号，从而将动态场景转变为更易于重建的静态场景。此外，对于重建步骤，来自多视图视频的强大先验减少了具有复杂细节的场景建模的负担。

视频生成的相对姿态控制

给定场景描述和一系列的相机姿态{}，我们的视频生成器负责多视图视频生成。尽管许多先前的街景生成技术达到了富有表现力的视觉效果，但它们的公式忽略了3D建模的关键要求。详细来说，相机姿态通常是相对于每帧的激光雷达坐标系的。因此，没有与自车轨迹相关的精确控制信号，这显著决定了不同ts的视图之间的几何关系。

在MagicDrive3D的视频生成模型中，通过添加每帧与第一帧之间的变换，即来修正这种精确的控制能力。为了正确编码这些信息，采用了多层感知器（MLP）的傅里叶embedding，并将embedding与的原始embedding连接起来。因此，视频生成器在帧之间提供了更好的3D一致性，最重要的是，使得每个视图的相机姿态在同一坐标系中可用，即 = 。

生成内容的增强Gaussian Splatting

3DGS是一种灵活的显式场景重建表示方法。此外，3DGS的快速训练和渲染速度使其非常适合降低场景创建流程中的生成成本。然而，与其他3D重建方法类似，3DGS需要在像素级别上实现高水平的跨视图3D一致性，这不可避免地会将生成数据中的微小错误放大成明显的伪影。因此从先验、建模和损失的角度提出了对3DGS的改进，使3DGS能够容忍生成的相机视图中的微小错误，从而成为增强渲染中几何一致性的有力工具。

先验：深度一致的先验。深度作为基本的几何信息，在街道场景重建中得到了广泛的应用，许多工作使用来自激光雷达或其他深度传感器的深度值。然而，对于合成的相机视图，深度是不可用的。因此，我们建议使用预训练的单目深度估计器来推断深度信息。

虽然单目深度估计是对每个相机视图分别进行的，但为了将多个视图对齐到单个场景中，应该估计适当的尺度和偏移参数，如图3(a)所示。为此，首先使用从SfM获得的点云（PCD），如图3(b)所示。然而，这样的PCD过于稀疏，无法准确恢复任何视图的。为了弥补这一差距，提出使用GS损失进一步优化，如图3(c)所示。用替换了对Guassian中心µi的优化。优化后，使用深度值中的点来初始化µi。由于GS算法对准确的点初始化很敏感，本文的方法在这种稀疏视图场景中为重建提供了有用的先验信息。

建模：用于局部动态的可变形高斯。尽管我们的视频生成模型提供了3D几何一致性，但在某些对象细节上仍不可避免地存在像素级别的差异，如图4所示。3DGS的严格一致性假设可能会放大这些微小误差，导致浮动伪影。为了减轻这些误差的影响，这里提出了基于3DGS的可变形高斯分割（DGS），它降低了帧间时间一致性的要求，从而确保了生成视点的重建效果。

Loss：Aligning Exposure with Appearance Modeling。典型的街景数据集是通过多个相机收集的，这些相机通过自动曝光和自动白平衡独立捕获视图。由于视频生成是优化以匹配原始数据分布的，因此在生成的数据中也存在来自不同相机的差异。外观差异是野外重建中众所周知的问题，本文为GS表示法提出了一种专用的外观建模技术。

我们假设不同视图之间的差异可以用第i个相机视图的仿射变换Ai(·)来表示。为每个视图分配一个外观嵌入（AE）map ，并使用卷积神经网络（CNN）来近似这个变换矩阵。最终，使用变换后的图像进行逐像素的ℓ1损失计算。因此，针对DGS的最终损失如下：

优化流程。在算法1中展示了所提出DGS的总体优化流程，第2行是对单目深度的首次优化。第4-8行是对单目深度的第二次优化。第10-16行是DGS重建的主要循环，我们在此考虑了高斯上的时间偏移、局部动态的相机姿态优化以及不同视图间外观差异的自动编码器（AEs）。

实验对比分析

数据集。使用nuScenes数据集来测试MagicDrive3D，该数据集通常用于生成和重建街景。遵循官方配置，使用大约每个20秒的700个街景视频片段进行训练，另外150个片段用于验证。对于控制信号中的语义信息，使用10个对象类别和8个道路类别。

指标和设置：MagicDrive3D主要通过使用Fréchet Inception Distance（FID）来评估，方法是通过渲染数据集中未见的新视图，并将其FID与真实图像进行比较。此外，该方法的视频生成能力通过Fréchet Video Distance（FVD）进行评估，而其重建性能则通过L1、PSNR、SSIM 和LPIPS 进行评估。对于重建评估，采用了两种测试场景：360°场景，其中来自t=9的所有六个视图都保留用于在规范空间中测试重建；以及vary-t场景，其中从不同的t中随机抽取一个视图，以评估在规范空间中通过t进行的长距离重建能力（如表1所示）。

参考

[1] MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes.

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频