ICLR 2023 | 从2D图像学习如何在3D场景进行几何分解与操纵

最新推荐文章于 2024-06-22 09:40:15 发布

PaperWeekly

最新推荐文章于 2024-06-22 09:40:15 发布

阅读量451

点赞数

文章标签：学习 3d 计算机视觉人工智能深度学习

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/130234075

版权

论文DM-NeRF提出了一种方法，通过2D图像学习3D场景的几何分解和物体操纵。该方法在无需显式3D标签的情况下，能从2D图像中恢复3D场景几何，精确分割物体，并支持编辑几何形状，同时保持新视图的高保真渲染。实验表明，DM-NeRF在3D物体分割和编辑方面表现出色，适用于复杂场景。

摘要由CSDN通过智能技术生成

作为人类，我们每时每刻都生活在 3D 场景中，并与之积极的交互。在生活实践中经常会产生一些拍脑袋的有趣想法，我们很容易能够发挥主观能动性对周围的场景中的物体进行改造和互动。但是在万物皆数字化的今天，想在虚拟世界里去随心所欲改变场景和其中的物体，并不是一件容易的事情。

按照人类想法改变和创造环境，在操作层面并不难想象，但在虚拟三维世界的技术层面实现上述操作非常具有挑战性，因为它涉及在单个框架中进行 3D 场景的重建（reconstruction）、分解（decomposition）、操纵（manipulation）和真实感渲染（rendering）。

为此，作者设计了一个简单的流程：DM-NeRF，它建立在 NeRF 成功的基础上，但能够将整个 3D 空间分解为物体场，并自由地操纵它们的几何形状，以实现逼真的新视图渲染。总体而言，DM-NeRF 可以同时恢复 3D 场景中的几何体，仅从 2D 图像中就能够学习分解和操作物体实例。

在多个数据集上进行的大量实验表明：DM-NeRF 可以精确分割所有 3D 物体并有效编辑 3D 场景中的几何体，同时并不会牺牲新颖视角下渲染的高保真度。

论文标题：

DM-NERF: 3D scene geometry decomposition and manipulation from 2D images.

论文链接：

https://arxiv.org/abs/2208.07227 [1]

开源代码及数据集：

https://github.com/vLAR-group/DM-NeRF [2]

引言

在许多有趣的视觉和图形学应用程序中，比如移动设备上部署的混合现实 APP，用户经常会对在 3D 场景中虚拟地操纵某些物体很感兴趣：具体的例子是在一个 3D 的房间中移动椅子或制作飞行扫帚。为了实现这一操作，除了需要满足用户能够轻松地编辑真实场景，还要能够满足用户从任意新视角来查看某个物体。

对于使用传统流程：首先使用 SfM/SLAM 技术来重建显式的 3D 结构，比如点云或多边形网格，然后识别 3D 物体，再进一步对其手动编辑。然而，显式的 3D 表示受制于将物体的连续表面表示离散化，并且改变形状通常需要额外的修复程序，如重新网格化。因此，传统的方法难以保留物体的几何形状和外观细节，这导致生成的新视角视图质量不高，难以吸引人。

对于使用隐式表示：特别是 NeRF 可以从图像中表示连续的 3D 几何结构。基于此在后续发展了一系列方法，比如将照明因素与结构解耦，允许自由编辑照明和材质。但它们无法将 3D 场景几何体分解为单个对象，所以很难在复杂场景中操纵单个对象的形状。最近的工作已经开始学习用于潜在几何操作的解缠结形状表示法。然而，它们要么专注于合成场景，要么专注于简单的模型分割，很难扩展到具有数十个对象的真实世界 3D 场景。

为了解决以上局限性，作者的目标是：1）同时恢复连续的 3D 场景几何（物体），分割 3D 空间中的所有单个对象，并支持灵活的对象形状操作，如平移、旋转、大小调整和变形。2）此外，希望编辑后的 3D 场景也可以从新颖的视图中进行渲染。

本文的主要贡献是：