论文笔记《3D Gaussian Splatting for Real-Time Radiance Field Rendering》

最新推荐文章于 2025-09-28 01:24:00 发布

原创

最新推荐文章于 2025-09-28 01:24:00 发布 · 1.6w 阅读

103 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读 #3d #三维重建 #计算机图形学 #计算机视觉

本文介绍一种新的三维场景表示方法，引入3D高斯表示场景，结合优化和自适应密度控制，开发快速可见性感知渲染算法。该方法能达到SOTA视觉质量，保证有竞争力的训练时间，可在1080p分辨率下实现高质量、实时的新视角合成。

项目地址

原论文

Abstract

最近辐射场方法彻底改变了多图/视频场景捕获的新视角合成。然而取得高视觉质量仍需神经网络花费大量时间训练和渲染，同时最近较快的方法都无可避免地以质量为代价。对于无边界的完整场景（而不是孤立的对象）和 1080p 分辨率渲染，目前没有任何方法能达到实时显示率。我们引入了三个关键元素，使得能够达到sota视觉质量同时保证有竞争力的训练时间，而且重要的是可以高质量、实时（ $\ge 30 fps$ ）、1080p分辨率的情况下新视角合成。首先，从摄像机校准过程中产生的稀疏点开始，我们用三维高斯来表示场景，既保留了用于场景优化的连续容积辐射场的理想特性，又避免了在空白空间进行不必要的计算；其次，我们对三维高斯进行交错优化/密度控制，特别是优化各向异性协方差（scale & rotation），以实现对场景的精确呈现；第三，我们开发了一种快速可见性感知渲染算法，它支持各向异性拼接，既能加快训练速度，又能进行实时渲染。我们在几个已建立的数据集上展示了最先进的视觉质量和实时渲染。

Introduction

网格和点是最常见的三维场景表示，因为它们是明确的，并且非常适合于快速的基于GPU/CUDA的光栅化（rasterization）。相比之下，最近的神经辐射场（NeRF）方法建立在连续的场景表示上，通常通过体积射线行进优化多层感知器（MLP），用于捕获场景的新视角合成。同样地，迄今为止最有效的辐射场解决方案是通过插值连续表示中存储的值，例如体素[Fridovich-Keil和Yu等，2022年]或哈希[Müller等，2022年]网格或点[Xu等，2022年]。尽管这些方法的连续性有助于优化，但渲染所需的随机采样是昂贵的，并可能导致噪音。我们引入了一种新方法，结合了两者的优势：我们的三维高斯表示允许使用最先进的视觉质量和竞争性训练时间进行优化，而我们的tile-based splatting解决方案确保了1080p分辨率下几个先前发布的数据集的SOTA质量的实时渲染（参见图1）。

我们的方法实现了辐射场的实时渲染，质量与以前质量最高的方法[Barron等人，2022年]相等，同时仅需要与最快的先前方法[Fridovich-Keil和Yu等人，2022年；Müller等人，2022年]相竞争的优化时间。这种性能的关键是一种新颖的3D高斯场景表示，结合实时可微分渲染器，显著加快了场景优化和新视角合成的速度。需要注意的是，在与InstantNGP [Müller等人，2022年]相当的训练时间内，我们的质量与他们的类似；虽然这是他们达到的最高质量，但通过训练51分钟，我们实现了最先进的质量，甚至略优于Mip-NeRF360 [Barron等人，2022年]。（吐槽：怎么感觉最后越说越牵强呢……有我写论文的感觉——只要限定范围足够小我就是最牛的

我们的目标是允许实时渲染多张照片捕获的场景，并在典型真实场景的优化时间内创建表示，速度与最有效的先前方法相当。近期的方法实现了快速训练[Fridovich-Keil等；Müller等]，但难以达到当前SOTA NeRF方法获得的视觉质量，即Mip-NeRF360[Barron等人，2022年]，该方法需要长达48小时的训练时间。快速但质量较低的辐射场方法可以在不同的场景下实现交互式渲染时间（每秒10-15帧），但无法满足高分辨率的实时渲染要求。~~哎呀反正就说大家都不行就我最牛了~~
我们的解决方案基于三个主要组成部分。首先，我们引入了3D高斯作为灵活且表现力强的场景表示。我们从先前的类似NeRF的方法中采用相同的输入，即由Structure-from-Motion（SfM，我帮同学完成作业时碰巧做过这个实验只用同一物体的多视角图片就能得到三维点云，相当cheap了，就是我做的效果极差）[Snavely等人，2006年]校准的相机，并使用SfM过程中简易（原文居然用free？）产生的稀疏点云初始化3D高斯集。与大多数需要多视图立体匹配（MVS）数据[Aliev等人，2020年；Kopanas等人，2021年；Rückert等人，2022年]的基于点的解决方案不同，我们仅使用SfM点作为输入即可实现高质量的结果。需要注意的是，在NeRF合成数据集中，我们的方法即使进行随机初始化也能实现高质量（意思是不用训练了？）。我们证明了3D高斯是一个很好的选择，因为它们是可微的体积表示，但也可以通过将它们投影到二维并应用标准𝛼混合来进行高效光栅化，使用与NeRF相同的等效图像形成模型（也是MLP咯？）。我们方法的第二个组成部分是优化3D高斯的属性，与自适应密度控制步骤交错，我们在优化过程中添加并偶尔移除3D高斯（sparse的思想）。优化过程产生了一个相对紧凑、非结构化且精确的场景表示（对于所有测试场景，1-5百万高斯）。我们方法的第三个即最后一个元素是我们的实时渲染解决方案，它使用快速GPU排序算法，并受tile-based rasterization的启发，遵循最近的工作[Lassner和Zollhofer，2021年]。然而，由于我们的3D高斯表示，我们可以执行各向异性splatting，遵循可见性排序-通过排序和𝛼混合-并通过跟踪所需数量的已排序splats的遍历来实现快速且准确的向后传播。
总之，我们提供了以下贡献：
• 引入各向异性3D高斯作为辐射场的高质量、非结构化表示。
• 3D高斯属性的优化方法，与自适应密度控制交错，为捕获的场景创建高质量的表示。
• 针对GPU的快速、可微分的渲染方法，它具有可见性感知性，允许各向异性splatting和快速反向传播，从而实现高质量的新视角合成。
我们在先前发布的数据集上的结果表明，我们可以从多视图捕获中优化我们的3D高斯，并获得与最佳先前隐式辐射场方法相等或更好的质量。我们还可以实现与最快方法相似的训练速度和质量，重要的是，为新视角合成提供了第一个实时渲染，质量高。

Related Work

这部分就不详细讲了，作者简要概述了传统reconstruction，讨论了基于点的渲染和辐射场的工作以及相似性。

作为小白值得一提的几个点：

MVS和CNN的缺点

请添加图片描述

作者提出这个观点的依据是论文中提到的“大多数方法使用基于多视图立体匹配（MVS）的几何信息，这是主要的缺点之一；此外，使用卷积神经网络（CNN）进行最终渲染经常导致时间上的闪烁现象。”这个观点基于两个主要方面：

MVS-Based Geometry的缺点：作者指出大多数方法使用MVS-Based Geometry作为其几何信息的基础，这会带来主要的缺点。MVS方法在多视图图像中恢复场景几何，但由于深度图重建等过程中的误差积累，可能会导致不准确的几何信息。这可能会影响最终渲染的质量和稳定性，特别是在视角合成时可能会出现不连续性或伪影。
CNN用于最终渲染的缺点：作者还指出使用CNN进行最终渲染可能会导致时间上的闪烁现象。这可能是因为CNN在逐帧渲染过程中可能会引入一些不稳定性，导致连续帧之间出现明显的亮度或颜色变化。这种闪烁现象可能在动态场景中尤为显著，影响了渲染的视觉质量。（这个倒是显而易见的

Volumetric representations

NeRF加速的三个设计

也是个坑……

Overview

我们方法的输入是一组静态场景图像，以及通过 SfM 校准的相应摄像机，该方法会产生稀疏点云作为副产物（副作用这个说法也太……）。我们从这些点中创建了一组三维高斯，由位置（均值）、协方差矩阵和不透明度𝛼 定义，可以实现非常灵活的优化机制。这使得三维场景的表示相当紧凑，部分原因是高度各向异性的体积splats可以用来紧凑地表示精细结构。辐射场的方向性外观分量（颜色）通过球面谐波（SH）表示，遵循标准做法[Fridovich-Keil 和 Yu 等，2022；Müller 等，2022]。我们的算法通过一系列三维高斯参数的优化步骤，即位置、协方差、𝛼 和 SH 系数，以及高斯密度自适应控制的交错操作，来创建辐射场表示。我们的方法之所以高效，关键在于我们r tile-based rasterizer，它可以对各向异性的splats进行𝛼 混合，并通过快速排序遵守可见性顺序。快速栅格化器还包括通过跟踪累积的𝛼值实现的快速后向传递，对可接收梯度的高斯数量没有限制。最后一句没看懂了呜呜

请添加图片描述

优化从稀疏的 SfM 点云开始，并创建一组 3D 高斯。然后，我们对这组高斯的密度进行优化和自适应控制。在优化过程中，我们使用fast tile-based renderer，与 SOTA 快速辐射场方法相比，训练时间更短。训练完成后，我们的渲染器就可以对各种场景进行实时渲染（居然用的是navigation……。

请添加图片描述

把经过优化后的3D Gaussians缩小60%并可视化出来，可以看到anisotropic shapes of 3D Gaussians表征了复杂的几何特征。（原文说clearly，真是日了狗了，哪里clearly了？

Differentiable 3D Gaussian Splatting

我们的目标是优化场景表示法，以便从无法线（without normals，即不带方向的点）的稀疏 (SfM) 点集合出发，进行高质量的新颖视图合成。为此，我们需要一种基元，它继承了可微分体积表示法的特性，同时又是非结构化的、明确的，可以进行非常快速的渲染。我们选择三维高斯，因为它是可微分的，可以很容易地投射到2D splats上，从而实现快速的 $\alpha$ 混合渲染。

我们的表示方法与之前使用2D点的方法[Kopanas et al. 2021; Yifan et al. 2019]有相似之处：假设每个点都是一个带有法线的小平面圆。但是鉴于SfM点的极度稀疏性，估计法线非常困难。同样地，从这样的估计中优化非常嘈杂的法线将是非常具有挑战性的。所以，我们将几何形状建模为一组不需要法线的三维高斯函数。我们的高斯函数由一个在世界坐标系中定义的完整的3D协方差矩阵 $Σ$ 定义，以点（均值） $\mu$ 为中心[Zwicker et al. 2001a]:

$e^{-\frac{1}{2}(x)^TΣ^{-1}(x)}$