Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction
1 背景
标题:Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction用于高保真单目动态场景重建的可变形3D高斯模型
作者:Ziyi Yang, Xinyu Gao, Wen Zhou, Shaohui Jiao, Yuqing Zhang, Xiaogang Jin
机构:State Key Laboratory of CAD&CG, Zhejiang University;ByteDance Inc.
原文链接:https://arxiv.org/abs/2309.13101
官方代码:https://github.com/ingra14m/Deformable-3D-Gaussians
2 摘要
提出了可变形的三维高斯喷溅方法,在变形场中建模单目动态场景;
引入了退火平滑训练机制(annealing smoothing training,AST),解决相机位姿不准确的问题,无需额外计算开销,对资源进行了有效的利用。
“单目”(Monocular)在计算机视觉中指的是使用一个摄像头或图像源来获取和处理信息。与之相对的是“双目”或多目系统,后者利用两个或多个不同位置的摄像头来模拟人类双眼的立体视觉,从而直接获取深度信息。
退火平滑训练机制
退火:逐渐改变某个参数的过程
平滑:减少波动和不规则性
3 简介
以前用于建模动态场景的方法依赖于网格的表示,但是这种表示有缺陷:
①缺乏细节和真实感
②缺乏语义信息
③难以适应拓扑变化
为了提高nerf的静态场景推理效率,开发了多种加速方法,包括:
①基于网格的结构
②预计算策略
而3dgs这种方法是为表示静态场景而设计的,其高度定制的cuda光栅化管道降低了它的可扩展性。
隐式表示越来越多地用于动态场景建模,但是被证明既低效又无效,表现出的缓慢的收敛速度以及明显的过度拟合性。
许多动态场景都集成了离散结构,如体素网格或平面建模,这种方式提高了训练速度和建模精度。然而挑战依旧存在如下:
①光线投射作为一种渲染方式使得效率低下。
②基于网格的方法依赖于低秩假设,但是动态场景表现出了更高的秩。
在本文