CVPR2024满分论文：基于可变形三维高斯的高质量单目动态重建方法

学术菜鸟小晨

于 2024-08-27 09:16:27 发布

阅读量1k

点赞数 32

文章标签：三维重建

本文链接：https://blog.csdn.net/qq_34717531/article/details/141565561

版权

一、摘要

隐式神经表征为动态场景的重建和渲染开辟了新的途径。然而，尖端的动态神经渲染方法严重依赖这些隐式表征，它们常常难以捕捉场景中物体的复杂细节。此外，隐式方法通常难以实现动态场景的实时渲染，限制了它们在多种任务中的应用。为了解决这些问题，我们提出了一种可变形的3D高斯喷溅法，该方法利用3D高斯在规范空间重建场景，并通过变形场来模拟单目动态场景。我们还引入了一种无额外开销的退火平滑训练机制，可以减轻不准确姿态对实际数据集中时间插值任务平滑性的影响。通过差分高斯光栅化器，可变形的3D高斯不仅实现了更高的渲染质量，还达到了实时渲染速度。实验表明，我们的方法在渲染质量和速度方面都显著优于现有方法，非常适合新视角合成、时间插值和实时渲染等任务。我们的代码可在以下链接获取：https://github.com/ingra14m/Deformable-3DGaussians。

项目主页：https://ingra14m.github.io/Deformable-Gaussians/
论文链接：https://arxiv.org/abs/2309.13101
代码：https://github.com/ingra14m/Deformable-3D-Gaussians

二、介绍

从一组输入图像中高质量重建和真实感渲染动态场景对于增强现实/虚拟现实（AR/VR）、3D内容制作和娱乐等多种应用至关重要。过去用于建模这些动态场景的方法主要依赖于基于网格的表示，如文献[9, 14, 18, 40]中所述。然而，这些策略常常面临细节和真实感缺乏、语义信息缺失以及难以适应拓扑变化等固有局限性。随着神经渲染技术的引入，这一范式发生了显著变化。尤其是通过NeRF [28]实现的隐式场景表征，在新视角合成、场景重建和光线分解等任务中展示了令人称赞的效果。

为了提高基于NeRF的静态场景推理效率，研究人员开发了多种加速方法，包括基于网格的结构[7, 46]和预计算策略[44, 52]。值得注意的是，通过引入哈希编码，Instant-NGP [29] 实现了快速训练。在质量提升方面，mipNeRF [2] 首创了一种有效的抗锯齿方法，后被 zipNeRF [4] 结合到基于网格的方法中。3D-GS [15]最近将基于点的渲染扩展到了具有3D高斯功能的高效CUDA实现中，这使得实时渲染成为可能，其质量甚至超过了Mip-NeRF [2]。然而，这种方法专为表征静态场景而设计，其高度定制的CUDA光栅化流水线限制了其可扩展性。

隐式表征越来越多地被用于建模动态场景。为了处理动态场景中的运动部分，一些方法[43, 49]将NeRF条件化在时间变量上。相反，非耦合方法[23, 30, 31, 34, 39]采用变形场将场景建模在规范空间中，通过映射给定时间的点坐标到这一空间。这种解耦的建模方法可以有效表征动作变化不剧烈的场景。然而，不论是哪种分类，采用隐式表征来建模动态场景往往既不高效也不有效，表现为收敛速度慢以及极易过拟合。受到开创性NeRF加速研究的启发，许多关于动态场景建模的研究已经整合了离散结构，如体素网格[11, 38]或平面[6, 36]。这种整合提高了训练速度和建模精度。然而，挑战仍然存在。利用离散结构的技术仍然面临实时渲染速度和生成具有足够细节的高质量输出的双重约束。多个方面构成了这些挑战的基础：首先，射线投射作为一种渲染方式，特别是在提升至更高分辨率时，往往变得效率低下；其次，基于网格的方法依赖于低秩假设，与静态场景相比，动态场景显示出更高的秩，这限制了这种方法能够达到的质量上限。

在本文中，为了解决上述挑战，我们对静态的3D-GS进行了扩展，并提出了一种可变形的3D高斯框架用于建模动态场景。为了增强模型的应用性，我们特别关注单目动态场景的建模。我们不是逐帧重建场景[26]，而是将3D高斯条件化在时间上，并且联合训练一个纯隐式变形场与规范空间中的可学习3D高斯。这两个组件的梯度来源于一个定制的差分高斯光栅化流水线。此外，为了解决重建过程中由于姿态不准确引起的时间序列抖动，我们加入了一个退火平滑训练（AST）机制。这种策略不仅改善了时间插值任务中帧与帧之间的平滑性，还允许渲染更多细节。

总结来说，我们工作的主要贡献包括：

一个用于建模单目动态场景的可变形3D-GS框架，能够实现实时渲染和高保真场景重建。
一个新颖的退火平滑训练机制，确保时间平滑性同时保留动态细节，而不增加计算复杂性。
第一个通过变形场扩展3D-GS至动态场景的框架，使得在规范空间学习3D高斯成为可能。

我们方法的概述如图2所示。输入数据是一组单目动态场景的图像，附带时间标签和通过SfM [37] 校准的相应相机姿态，SfM还生成了一个稀疏点云。从这些点云中，我们创建了一组由中心位置x、不透明度σ和通过四元数r和缩放s得到的3D协方差矩阵Σ定义的3D高斯G(x, r, s, σ)。每个3D高斯的视依赖外观通过球形谐波（SH）来表示。为了模拟随时间变化的动态3D高斯，我们将3D高斯和变形场解耦。变形场以3D高斯的位置和当前时间t为输入，输出δx、δr和δs。随后，我们将变形后的3D高斯G(x + δx, r + δr, s + δs, σ)放入高效的差分高斯光栅化管道中，该管道是一个基于瓦片的光栅器，允许各向异性斑点的α混合。通过跟踪累积的α值以及对高斯密度的自适应控制，3D高斯和变形网络通过快速反向传递共同优化。实验结果表明，在30k训练迭代后，3D高斯的形状及其规范空间均已稳定，这间接证明了我们设计的有效性。