MorpheuS: Neural Dynamic 360° Surface Reconstruction from Monocular RGB-D Video
vmap: Vectorised object mapping for neural field slam.Co- slam。Nice-slam
我们提出了 MorpheuS,这是一种动态场景重建方法,利用神经隐式表示和扩散先验从单目 RGB-D 视频中实现对运动物体的 360° 重建。我们的方法既可以实现对观察到的区域的度量精确重建,也可以实现动态场景中未观察到的区域的照片级逼真完成。
ABSTRACT
神经渲染在动态场景重建方面取得了显著的成功。得益于神经表征的表现力,先前的研究可以准确捕捉运动并实现目标物体的高保真重建。尽管如此,现实世界的视频场景通常具有大量未观察到的区域,神经表征很难实现逼真的完成。
为了应对这一挑战,我们引入了 MorpheuS,这是一个从随意捕获的 RGB-D 视频中进行动态 360° 表面重建的框架。
我们的方法将目标场景建模为一个规范场,该场对其几何形状和外观进行编码,并结合一个变形场,将点从当前帧扭曲到规范空间。我们利用视图相关的扩散先验并从中提取知识,以实现未观察区域的真实完成。在各种现实世界和合成数据集上的实验结果表明,我们的方法可以从单目 RGB-D 视频中实现可变形物体的高保真 360° 表面重建。
1)动态表面渲染:我们通过将点从观察空间映射到超维规范空间的变形场和将点解码为 SDF 和颜色的规范场来建模目标动态场景。
2)扩散先验:我们利用扩散先验并执行 SDS 来补全未观察区域。请注意,这里的去噪过程是在潜在空间中进行的。为了便于说明,所有可视化都是通过解码潜在向量生成的。
3)优化:我们使用真实视图监督 Lreal、SDS 损失 LS、规范正则化 Lcanoreg 和参数正则化 Lparamreg 来优化场景表示。
3. 方法
输入:单目 RGB-D 视频,已知摄像机内参 K ∈ R3 × 3且摄像机姿态 Pt ∈ SE (3)。
目标场景表示为超维规范场和变形场(第 3.1 节)。
未观察区域重建通过从扩散先验中提炼知识来解决(第 3.2 节)。
我们使用实景观察和扩散先验来对我们的场景表示进行监督。
使用几个正则化项来提高优化过程的鲁棒性(第 3.3 节)。
3.1 动态神经表面渲染
变形场:我们通过一个变形网络 D (·)和一个拓扑网络 T (·)来对变形的场景建模。
给定第 t 帧的观测空间中的一个点 xt ∈ R3,D(·) 和 T(·) 将该点从观测空间映射到超维正则空间 x′ ∈ R3+m 中的一个点
3.2 360°重建的扩散先验
我们采用了 Zero-1-to-3(一种视图条件潜在扩散模型),并从中提取知识,以使用 SDS 完成未观察区域
3.3 优化
4.实验
指标。我们采用准确度(acc. [cm])和完成度(comp. [cm])来评估表面重建质量,采用CLIP相似度来评估完成的真实性。
实施细节。我们在配备 Intel Core i7-13700K CPU 和 NVIDIA RTX 4090 GPU 以及 24GB 内存的台式电脑上运行 MorpheuS。该模型大约需要 2-3 小时进行训练,并且根据输入帧的大小需要 10-22GB 的内存。
5. 结论
我们介绍了 MorpheuS,这是一种新颖的框架,旨在从随意的单目 RGB-D 视频中进行动态 360◦ 表面重建。通过将扩散先验与动态场景重建有效结合,MorpheuS 超越了传统的动态重建方法,实现了未观察区域的照片级逼真完成以及观察区域的精确运动和几何重建。
致谢。此处介绍的研究得到了思科研究和伦敦大学学院基础人工智能博士培训中心的赞助研究奖,资助编号为 EP/S021566/1。该项目利用了由 EPSRC(EP/T022205/1)资助的 Tier 2 HPC 设施 JADE2 上的时间。