论文解读:SPIn-NeRF: Multiview Segmentation and Perceptual Inpainting with NeuralRadiance Fields

图1. 我们的3D修补框架的输入和输出示例。 除了从场景中捕获的图像及其相应的相机参数外,用户还需在单张图像中提供几个点,以指示他们希望从场景中移除的对象(左上角插图)。这些稀疏标注随后被自动转移到所有其他视图,并用于多视图掩膜的构建(右上角插图)。最终的3D一致掩膜用于感知优化问题,从而实现3D场景修补(下方),每张图像的优化NeRF渲染深度图作为插图显示。 

摘要 

        神经辐射场(NeRF)已经成为新视图合成的热门方法。虽然NeRF正迅速适应更广泛的应用,但直观地编辑NeRF场景仍然是一个未解的挑战。一个重要的编辑任务是从3D场景中移除不需要的对象,使得被替换的区域在视觉上是可信的,并与其上下文保持一致。我们将这一任务称为3D修补。在3D中,解决方案必须在多个视图中一致,并且在几何上有效。在本文中,我们提出了一种新颖的3D修补方法,解决了这些挑战。给定一小组姿态图像和单张输入图像中的稀疏标注,我们的框架首先快速获取目标对象的3D分割掩膜利用该掩膜,随后引入了一种基于感知优化的方法,利用学习到的2D图像修补器,将其信息提取到3D空间,同时确保视图一致性

        我们还通过引入一个由具有挑战性的真实场景组成的数据集来解决缺乏多样化基准评估3D场景修补方法的问题。特别是,我们的数据集包含了同一场景的有目标对象和没有目标对象的视图,从而使3D修补任务的基准测试更加有原则。我们首先展示了我们的方法在多视图分割上的优越性,与NeRF方法和2D分割方法进行了比较。然后,我们在3D修补任务上进行了评估,建立了相对于其他NeRF操控算法以及强大的2D图像修补基准的最先进性能。

引言

        神经渲染方法,尤其是神经辐射场(NeRF)[35],最近已成为表示和重建场景的新模式 [50],在新视图合成方面取得了令人印象深刻的结果。大量研究工作继续集中在制定更高效的NeRF(例如 [6, 20, 43]),以便在计算资源有限的使用场景中使NeRF变得更加实用。随着NeRF的普及,对编辑和操控NeRF所表示场景的需求也会不断增长。其中一个显著的编辑应用是移除对象并对3D场景进行修补,这类似于广泛研究的2D图像修补任务 [23]。然而,这一任务面临几个障碍,不仅仅是3D修补过程本身,还有获取输入分割掩膜的困难

        首先,NeRF场景在神经映射权重中隐式编码,导致其表示复杂且难以解释,操控起来并不简单(相比于2D图像数组或3D网格的明确离散形式)。此外,任何尝试对3D场景进行修补的方法不仅必须在单一视图中生成感知上真实的外观,还必须保持基本的3D属性如视图间的一致性和几何合理性。最后,为了获取目标对象的掩膜,大多数最终用户与2D图像交互比3D界面更直观;然而,要求标注多张图像(并保持视图一致的分割)对用户来说是繁重的。一个吸引人的替代方案是仅期望对单一视图提供最少的标注。这促使我们开发一种能够从单视图稀疏标注中获得视图一致的3D分割掩膜的方法(用于修补)。

        在本文中,我们通过一种集成的方法解决了这些挑战,该方法接受场景的多视图图像,提取具有最少用户输入的3D掩膜并将NeRF拟合到掩膜图像上使得目标对象被具有可信的3D外观和几何的内容替代。现有的交互式2D分割方法未考虑到问题的3D方面(例如 [42]),而当前基于NeRF的方法无法使用稀疏标注 [76] 取得良好效果,或者准确性不足 [44]。同样,虽然一些当前的NeRF操控算法允许对象移除,但它们没有尝试提供新暴露空间部分的感知上真实的修补(例如 [64])。据我们所知,这是第一个在单一框架中处理交互式多视图分割和全面3D修补的方法。

        我们的方法利用现成的、对3D无感知的模型进行分割和修补,并将其输出以视图一致的方式转移到3D空间。基于(2D)交互式分割 [8, 15, 33] 文献,我们的框架从用户定义的目标对象上的少量图像点(以及其外的少量负样本)开始。我们的算法从这些点初始化掩膜,使用基于视频的模型 [4],并通过拟合语义NeRF [36,76,77] 将其提升为一致的3D分割。然后,在将预训练的2D修补器 [48] 应用到多视图图像集之后,使用定制的NeRF拟合过程重建3D修补场景,利用感知损失 [72] 来处理2D修补图像中的不一致性,以及使用修补深度图来规范掩膜区域的几何。总体而言,我们提供了一个完整的方法,从对象选择到修补场景的新视图合成,在一个统一的框架中,用户负担最小,如图1所示。

我们通过广泛的定性和定量评估展示了我们方法的有效性。此外,我们解决了缺乏比较场景修补方法的基准问题,介绍了一个新数据集,其中包括“真实修补”(即没有对象的场景的真实图像)。

总之,我们的贡献如下:

(i)一个完整的3D场景操控过程,从最小用户交互的对象选择开始,到3D修补NeRF场景结束;(ii)为了进行这样的选择,将2D分割模型扩展到多视图案例,能够从稀疏标注中恢复3D一致的掩膜;

(iii)为了确保视图一致性和感知合理性,提出了一种基于优化的3D修补在NeRF中的新方法,利用2D修补器;

(iv)一个用于3D对象移除评估的新数据集,包含相应的无对象真实图像。

图2. 我们的多视图分割架构概述。 作为输入,该网络接受3D坐标 x 和视图方向 d,并返回视图无关的密度 σ(x)、物体性逻辑回归 s(x)) 和视图依赖的颜色 c(x,d)。 

方法 

        给定一组RGB图像I = \{I_i\}_{i=1}^n,对应的3D姿态G = \{G_i\}_{i=1}^n,以及相机内参矩阵 K ,我们的模型还需要一个额外的“源”视图,该视图带有稀疏的用户标注(即一些点来标识不需要的对象)。根据这些输入,我们生成一个场景的NeRF模型,能够从任何新视图合成修补后的图像。我们首先从单视图注释源中获得初始的3D掩膜(,然后拟合一个语义NeRF,以提高掩膜的一致性和质量。最后,我们描述了我们的视图一致修补方法,该方法以视图和恢复的掩膜作为输入。我们的方法利用2D修补器 [48] 的输出作为外观和几何先验,以监督新NeRF的拟合。图1展示了我们整个方法,包括输入和输出。

多视图分割

掩膜初始化

基于NeRF的分割

 

多视图修复 

 

图3展示了我们修补方法的概述。使用已定向的输入图像及其对应的掩膜(上左和下左插图),我们获得(i)一个包含目标对象的初始NeRF模型和(ii)目标对象被移除的修补输入RGB图像集(但存在视图不一致)。初始NeRF(i)用于计算深度,我们对其进行修补以获得深度图像作为几何先验(上右插图)。修补后的RGB图像(ii),作为外观先验,与深度先验一起,用于拟合一个3D一致的NeRF模型到修补场景中。 

RGB先验 

深度先验 

基于patch 的优化 

 

掩膜精化

 

 试验

 

 

结论 

        在本文中,我们提出了一种用于修补NeRF场景的新方法,该方法基于图像和几何先验信息在给定单视图对象掩膜的情况下,强制执行视点一致性。此外,我们还提供了一种多视图分割方法,通过在不需要的对象上(及其周围)使用一组稀疏的像素级点击,并将其转化为可以从新视图渲染的3D掩膜,从而简化了标注过程。我们通过实验展示了我们的分割和修补方法的有效性。我们工作的主要局限性在于假设语义上一致的图像先验信息,可能仅在纹理方面存在差异。最后,我们引入了一个数据集,该数据集不仅解决了多视图修补缺乏挑战性基准的问题,而且我们相信它能够帮助未来在这一新研究方向上的进展。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

LeapMay

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值