Street View Synthesis with Gaussian Splatting and Diffusion Prior 学习笔记



在自动驾驶模拟中,早期的尝试 [7,28,30] 使用计算机图形学(CG)引擎来渲染图像。这不仅需要耗时的过程来重建虚拟场景,而且生成的结果在真实感和保真度上较低。近年来,用于新视图合成(NVS)的神经渲染技术,例如神经辐射场(NeRF)[18] 和 3D 高斯散点(3DGS)[12],被引入用于合成照片级逼真的街景。当前的研究 [9,17,20,24,33,37,41,45,53] 主要探讨了街景合成面临的两个挑战:无限场景的重建和动态物体的建模。BlockNeRF [33] 提出了将场景分割为多个块,以增强模型呈现大规模无限街景的能力。NSG [20] 及后续方法 [37,41,43,45,53] 分别对静态背景和动态前景进行建模,以实现更高质量的背景渲染,同时减少前景车辆的运动模糊。

尽管取得了令人兴奋的进展,但现有工作在评估重建质量时尚未充分探索一个关键问题。众所周知,理想的场景模拟系统应该具备高质量的自由视图渲染能力。目前的工作通常采用从车辆捕获的视图,但这些视图在训练阶段未曾见过(如图 1 中的红色视点),而忽略了与训练视图偏离较大的新视图(如图 1 中的蓝色和绿色视点)。在处理这些新视图时,现有方法的渲染质量显著下降,出现模糊和伪影,如图 1 所示。这一问题归因于车辆收集图像时视角的固有限制。训练图像通常沿着车辆行驶方向捕获,且集中在车辆所在车道周围。由于车辆的快速行驶,帧之间的重叠有限,因此无法对场景中的物体进行全面的多视角观察。因此,自动驾驶的街景合成任务可以被理解为从稀疏视图中进行重建的问题。

此前提出的神经渲染方法为解决稀疏视图下的 NVS 挑战,主要分为两大分支。第一类 [6,32,38,42,48] 结合了场景先验知识,例如深度信息 [6,25]、法线 [38],或从深度网络中提取的特征 [48],以显式的方式对模型训练进行正则化。此外,另一类 [16,21,29,31,40] 试图利用预训练的扩散模型来实现 NVS。这些方法通常通过在大型多视图数据集 [3,5,23,49] 上微调文本到图像的扩散模型,转变为图像到图像的扩散模型,并将相对摄像机位姿作为条件,随后在神经渲染模型的训练中应用扩散模型进行正则化。然而,多视图数据集 [3,5,23,49] 与街景之间存在显著的领域差异,仅依赖相对摄像机位姿不足以学习更复杂街景中的几何细节。为解决这一问题,我们利用从多模态数据中获得的 3D 几何信息来控制扩散模型,能够直接在自动驾驶数据集上微调模型,且无需编码相对摄像机位姿。

为巩固这一思路,本文提出了一种基于 3D 高斯散点和微调扩散模型先验的街景新视图合成方法。我们首先在自动驾驶数据集 [14] 上微调扩散模型。对于每个输入图像,我们使用其相邻帧作为条件,并利用来自 LiDAR 点云的深度信息进行控制。该微调后的扩散模型通过提供未见视图的先验来辅助 3DGS 训练。我们的方法在 KITTI [8] 和 KITTI-360 [14] 数据集上,针对密集视点输入与最先进的方法(SOTA)[1,12,41] 表现出竞争力,并在稀疏视图场景中表现优于它们。值得注意的是,即使在远离训练视图的视点下,我们的方法仍保持了高质量的渲染。此外,由于我们的方法仅在训练期间应用,因此不会影响 3DGS 的实时推理能力。因此,我们的模型在自动驾驶模拟系统中提供了高效的渲染和灵活的视点控制。

总之,我们的贡献如下: – 我们提出了一种新视图合成框架,用于街景合成,在保持渲染效率的前提下提升了视点控制的自由度,适用于自动驾驶模拟。 – 据我们所知,我们的方法是首次从稀疏视图输入重建问题的角度解决街景合成任务,并通过结合 3D 高斯散点与定制扩散模型应对这一挑战。 – 我们提出了一种在自动驾驶数据集上微调扩散模型并赋予其新视图合成能力的新策略,克服了传统上对多视图数据集和相对摄像机位姿的依赖。


