作为人类,我们每时每刻都生活在 3D 场景中,并与之积极的交互。在生活实践中经常会产生一些拍脑袋的有趣想法,我们很容易能够发挥主观能动性对周围的场景中的物体进行改造和互动。但是在万物皆数字化的今天,想在虚拟世界里去随心所欲改变场景和其中的物体,并不是一件容易的事情。
按照人类想法改变和创造环境,在操作层面并不难想象,但在虚拟三维世界的技术层面实现上述操作非常具有挑战性,因为它涉及在单个框架中进行 3D 场景的重建(reconstruction)、分解(decomposition)、操纵(manipulation)和真实感渲染(rendering)。
为此,作者设计了一个简单的流程:DM-NeRF,它建立在 NeRF 成功的基础上,但能够将整个 3D 空间分解为物体场,并自由地操纵它们的几何形状,以实现逼真的新视图渲染。总体而言,DM-NeRF 可以同时恢复 3D 场景中的几何体,仅从 2D 图像中就能够学习分解和操作物体实例。
在多个数据集上进行的大量实验表明:DM-NeRF 可以精确分割所有 3D 物体并有效编辑 3D 场景中的几何体,同时并不会牺牲新颖视角下渲染的高保真度。
论文标题:
DM-NERF: 3D scene geometry decomposition and manipulation from 2D images.
论文链接:
https://arxiv.org/abs/2208.07227 [1]
开源代码及数据集:
https://github.com/vLAR-group/DM-NeRF [2]
引言
在许多有趣的视觉和图形学应用程序中,比如移动设备上部署的混合现实 APP,用户经常会对在 3D 场景中虚拟地操纵某些物体很感兴趣:具体的例子是在一个 3D 的房间中移动椅子或制作飞行扫帚。为了实现这一操作,除了需要满足用户能够轻松地编辑真实场景,还要能够满足用户从任意新视角来查看某个物体。
对于使用传统流程:首先使用 SfM/SLAM 技术来重建显式的 3D 结构,比如点云或多边形网格,然后识别 3D 物体,再进一步对其手动编辑。然而,显式的 3D 表示受制于将物体的连续表面表示离散化,并且改变形状通常需要额外的修复程序,如重新网格化。因此,传统的方法难以保留物体的几何形状和外观细节,这导致生成的新视角视图质量不高,难以吸引人。
对于使用隐式表示:特别是 NeRF 可以从图像中表示连续的 3D 几何结构。基于此在后续发展了一系列方法,比如将照明因素与结构解耦,允许自由编辑照明和材质。但它们无法将 3D 场景几何体分解为单个对象,所以很难在复杂场景中操纵单个对象的形状。最近的工作已经开始学习用于潜在几何操作的解缠结形状表示法。然而,它们要么专注于合成场景,要么专注于简单的模型分割,很难扩展到具有数十个对象的真实世界 3D 场景。
为了解决以上局限性,作者的目标是:1)同时恢复连续的 3D 场景几何(物体),分割 3D 空间中的所有单个对象,并支持灵活的对象形状操作,如平移、旋转、大小调整和变形。2)此外,希望编辑后的 3D 场景也可以从新颖的视图中进行渲染。
本文的主要贡献是:
提出了一个物体场,仅从 2D 图像中直接学习 3D 空间中每个对象的唯一编码,与常用的基于单图像的分割方法相比,显示出显著的鲁棒性和准确性。
提出了一种反向查询算法,以有效地编辑指定的对象形状,同时从新颖的视图生成逼真的场景图像。
展示了 3D 分解和操纵的卓越性能&