3d gaussian splatting笔记（paper部分翻译）

蓝羽飞鸟

已于 2024-01-25 15:20:48 修改

阅读量2.9k

点赞数 45

分类专栏： DeepLearning 文章标签： 3d 笔记

于 2024-01-23 21:30:00 首次发布

本文链接：https://blog.csdn.net/level_code/article/details/135762978

版权

本文为3DGS paper的部分翻译。

基于点的𝛼混合和 NeRF 风格的体积渲染本质上共享相同的图像形成模型。具体来说，颜色 𝐶 由沿射线的体积渲染给出：
在这里插入图片描述

其中密度 𝜎、透射率 𝑇 和颜色 c 的样本是沿着射线以间隔 𝛿 𝑖 采集的。这可以重写为

在这里插入图片描述

典型的基于神经点的方法通过混合与像素重叠的 N 个有序点来计算像素的颜色 𝐶：
在这里插入图片描述

其中 c 𝑖 是每个点的颜色，𝛼 𝑖 是通过评估一个2D 高斯，用协方差 Σ 乘以学习的每点不透明度。

从等式2，3 可以清楚地看到成像模型是相同的。然而，渲染算法却有很大不同。 NeRF 是隐式表示空/占用空间的连续表示；需要昂贵的随机抽样才能找到等式2中的样本。随之而来的噪声和计算开销。相比之下，点是一种非结构化、离散的表示形式，它足够灵活，可以像 NeRF 一样创建、破坏和位移几何图形。这是通过优化不透明度和位置来实现的，同时避免了完整体积表示的缺点。

最近的一种方法使用点通过径向基函数方法来表示辐射场。他们在优化过程中采用点修剪和致密化技术，但使用体积光线行进并且无法实现实时显示速率。
在人体表演捕捉领域，3D 高斯已被用来表示捕捉到的人体。最近，它们已与体积光线行进一起用于视觉任务。神经体积基元已在类似的背景下被提出。虽然这些方法启发了我们选择 3D 高斯作为我们的场景表示，但它们专注于重建和渲染单个孤立对象（人体或面部）的特定情况，从而产生深度复杂度较小的场景。相比之下，我们对各向异性协方差的优化、交错优化/密度控制以及用于渲染的高效深度排序使我们能够处理完整、复杂的场景，包括室内和室外的背景，并且具有较大的深度复杂性。

输入是一组静态场景的图像，以及由 SfM校准的相应摄像机，这会产生稀疏点云作为副作用。从这些点出发，我们创建了一组 3D 高斯（第 4 节），由位置（均值）、协方差矩阵和不透明度 𝛼 定义，这允许非常灵活的优化机制。这会产生 3D 场景的相当紧凑的表示，部分原因是高度各向异性的体积片可用于紧凑地表示精细结构。辐射场的方向外观分量（颜色）通过球谐函数 (SH) 表示。我们的算法继续通过 3D 高斯参数的一系列优化步骤来创建辐射场表示（第 5 节），即位置、协方差、𝛼 和 SH 系数与高斯密度自适应控制的操作交织在一起。我们方法效率的关键是我们基于图块的光栅化器（第 6 节），它允许各向异性图块的𝛼混合，通过快速排序尊重可见性顺序。快速光栅化器还包括通过跟踪累积的 𝛼 值