论文标题:
Gaussian-Flow: 4D Reconstruction with Dynamic 3D Gaussian Particle
论文作者:
Youtian Lin, Zuozhuo Dai, Siyu Zhu, Yao Yao
项目地址:
https://nju-3dv.github.io/projects/Gaussian-Flow
\\ 关于作者//
本文由原paper一作林尤添博士全权翻译写作,林尤添博士就读于南京大学(NJU-3DV),师从姚遥副教授,其研究方向为4D和3D的重建以及生成,代表作为 Gaussian-Flow (CVPR 2024 Highlight)、Direct3D。目前有多篇论文发表在国际顶会上。
导读:
近期3D Gaussian Spatting (3DGS) 通过点云泼溅渲染的技术大幅度提升了静态场景的重建和渲染,因此我们希望通过扩展3DGS 来实现更快速且高质量的动态重建与渲染。为此我们提出了针对高斯点云的双域时间运动模型(DDDM),通过结合了时域和频域来同时对每个高斯粒子的运行进行建模,Gaussian-Flow可以在维持与3DGS相当的渲染速度的前提下,进一步提升动态场景重建的质量。©️【深蓝AI】
1. 背景简介
在数字场景合成领域,尤其是虚拟现实(VR)回放等应用中,实现高质量重建和实时渲染之间的平衡至关重要,因为这类应用需要即时反馈和沉浸式体验。神经辐射场(NeRFs)已经成为重建并渲染复杂场景的一种热门方法。然而,尽管NeRFs能够产生视觉效果惊人的结果,但它们需要在每条光线上多个点进行大量的采样以及神经网络的计算。因此,巨大的计算需求导致了NeRFs的快速重建以及实时渲染的能力。虽然目前有尝试加速NeRFs的渲染过程的方法,比如直接使用体积表示和三平面结构,但实现高保真实时渲染仍然是一个挑战。更重要的是,当需要把此类方法扩展至动态场景的重建和渲染时,因为在表征上多引入了一个时间的维度,因此渲染速度慢的问题变得更加严重。
由于神经辐射场和可微渲染的发展,动态NeRF建模近年来成为一个热门的研究课题。通过将时间作为NeRF的扩展输入维度,很多方法成功实现了高质量的基于图像的4D场景渲染。其中为了进一步提高重建质量并结合运动和结构的先验知识,通过构建了一个标准空间,然后对NeRF中每一个采样点进行光流或者位移场建模,从而得到其转移到每一帧的结果。然而,这需要较长的训练时间,无法满足实时渲染的要求。
最近,三维高斯泼溅(3D Gaussian Splatting, 3DGS)通过使用基于泼溅渲染的光栅化方法替代基于NeRF的体渲染方法,使得3DGS能够比NeRF快两个数量级地渲染图像。该方法也迅速被应用于通过单独的每帧3DGS优化扩展至四维场景重建。然而,这种直接的扩展需要大量存储,并且不适用于通过单目视频输入来重建整个动态场景。一些其他的同期工作尝试将显式的基于点的3DGS和隐式神经场混合用于动态信息建模,然而,这需要神经网络的前向传递计算量大,显著降低了原始3DGS的渲染速度。
2. 方案提出
我们所提出的Gaussian-Flow,是一种专门为3DGS设计的显式基于粒子的变形模型,用于在不使用任何神经网络的情况下对动态场景建模。Gaussian-Flow能够从输入的视频中恢复高保真度的4D场景,同时仍保持原始3DGS的超快训练和渲染速度。具体来说,我们将4D场景表述为一组可变形的3D高斯点。我们提出了一种新颖的双域变形模型(DDDM),以显式地对每个高斯点的属性(包括位置、旋转和辐射度)随时间的变化进行建模。对一个3DGS中每一个可以随时间变化的属性,我们使用了联合多项式和傅里叶级数拟合来对其在时间变化中的残差进行拟合。这种紧凑且简单的动态表示大大降低了运动模型的计算成本,这是保持3DGS渲染速度的关键。值得注意的是,我们的离散点基4D表示自然支持静态和动态3D场景的编辑,展示了在动态3D重建和渲染相关的各种下游应用中释放潜力的可能性。
图1|Gaussian-Flow渲染动态场景展示©️【深蓝AI】
图2|Gaussian-Flow的整体框架©️【深蓝AI】
3. 方法详析
我们目标是通过将每个属性拟合到一个时间依赖的曲线上,直接对每个3D高斯点的动态进行建模。在不同的方法中,时间域中的多项式拟合和频率域中的傅里叶级数拟合是两种最广泛使用的方法,因为它们简单且有效。然而,每种方法都有其优点和缺点:用多项式描述高斯粒子的运动可以在多项式阶数较小时很好地拟合平滑运动,但如果假设较高阶的多项式,则容易对剧烈运动过拟合,导致拟合轨迹中出现不合理的振荡。而傅里叶级数在捕捉剧烈运动的变化方面表现出色,但在处理平滑运动时需要手动降低阶数。
图3|DDDM拟合能力的对比©️【深蓝AI】
在这项工作中,我们的关键见解是使用双域变形模型(DDDM)来拟合场景动态,该模型将时域多项式和频域傅里叶级数集成到一个统一的拟合模型中。我们假设一个3D高斯粒子的旋转 q q q、辐射 c c c和位置 μ \mu μ随时间变化,而缩放 s s s和不透明度 α \alpha α保持不变。具体来说,我们将每个粒子属性的变化概念化为其在参考时间帧 t 0 t_0 t0(通常设置为第一帧)时的基本属性 S ∈ { μ 0 , c 0 , q 0 } S \in \{\mu_0, c_0, q_0\} S∈{ μ0,c0,q0