CVPR‘25 | 竟可去除遮挡?DeclutterNeRF:鲁棒高效的3D场景重建!

unset

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:JOJO极智算法

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

图片

论文信息unsetunset

题目:DeclutterNeRF: Generative-Free 3D Scene Recovery for Occlusion Removal
中文题目:DeclutterNeRF:用于去除遮挡的无生成式3D场景恢复
作者:Wanzhou Liu、Zhexiao Xiong、Xinyu Li、Nathan Jacobs

unsetunset论文创新点unsetunset

markdown

  1. 引入新数据集:论文引入DeclutterSet数据集,该数据集具有多样化的真实世界遮挡场景,涵盖多位置空间分布和视点相关变化,为评估遮挡去除方法提供更现实的基准。

  2. 提出无生成式框架:提出DeclutterNeRF,一种无生成式的遮挡去除框架。该框架利用NeRF的隐式多视图一致性来重建3D场景,确保可靠且高质量的结果,同时不产生额外的训练成本。

  3. 优化相机参数及训练稳定性:强调了遮挡去除对相机姿态估计的影响,纳入多视图联合可学习相机参数优化,并提出遮挡退火正则化(OAR) ,以改进稳健渲染过程,并在遮挡去除后稳定训练,减轻局部最小值和过拟合问题。

  4. 验证随机结构相似性:从理论和实验上验证了随机结构相似性方法的 “不合理有效性”,表明其在论文研究任务中具有更广泛的适用性。

unsetunset摘要unsetunset

最近的新视图合成(NVS)技术,包括神经辐射场(Neural Radiance Fields,NeRF)和3D高斯溅射(3D Gaussian Splatting,3DGS),通过高质量渲染和逼真的细节恢复,极大地推动了3D场景重建的发展。在保留场景细节的同时有效去除遮挡,能够进一步增强这些技术的鲁棒性和适用性。然而,现有的物体和遮挡去除方法主要依赖生成式先验,尽管这种方法可以填补产生的空洞,但会引入新的伪影和模糊。此外,现有的用于评估遮挡去除方法的基准数据集缺乏现实的复杂性和视点变化。为了解决这些问题,作者引入了DeclutterSet,这是一个新颖的数据集,其特点是包含各种场景,这些场景在前景、中景和背景中都有明显的遮挡,并且在不同视点间呈现出显著的相对运动。作者进一步提出了DeclutterNeRF,这是一种不依赖生成式先验的遮挡去除方法。DeclutterNeRF引入了对可学习相机参数的联合多视图优化、遮挡退火正则化,并采用了一种可解释的随机结构相似性损失,确保从不完整图像中实现高质量、无伪影的重建。实验表明,DeclutterNeRF在作者提出的DeclutterSet数据集上显著优于现有方法,为未来的研究建立了一个强大的基线。

unsetunset关键词unsetunset

3D场景重建;遮挡去除;神经辐射场;数据集

unsetunset一、引言unsetunset

最近的新视图合成(NVS)技术,包括神经辐射场(Neural Radiance Fields, NeRF)[23]和3D高斯溅射(3D Gaussian Splatting, 3DGS)[13],推动了逼真且高效的3D场景重建的发展。从渲染场景中去除不需要的物体,将进一步增强这些方法在增强现实(AR)、虚拟现实(VR)、机器人技术和自动驾驶[27, 40, 56, 57]等应用中的灵活性和适用性。值得注意的是,这些现实场景通常涉及比当前主流的遮挡和物体去除基准更为复杂的场景设置,并需要可靠的渲染结果。这在3D重建中仍然是一个重大挑战,需要对现有方法进行重新思考。

传统方法依靠立体几何来处理遮挡[6, 8, 10, 43, 59]。随着神经视图合成的出现,基于滤波和优化驱动的技术已被用于遮挡选择和去除[32, 33, 58],但它们的有效性仍然受到过度简化的场景假设的限制。最近的NeRF和3DGS方法采用了生成式模型[3 - 5, 11, 15, 18, 19, 24, 25, 31, 34, 37, 38, 42, 46, 49 - 51, 55],这可以在一定程度上提高重建质量,但往往会引入显著的计算开销,限制了它们的实用性。重要的是,大多数现有方法是在OCC - NeRF [58]和SPIn - NeRF [24]数据集上开发的,这两个数据集都引入了局限性假设。如图1所示,OCC - NeRF仅考虑前景遮挡,而SPIn - NeRF假设所有物体都位于背景平面上,并且在不同视点间的相对运动最小。当这些假设被违反时,即当物体处于不同距离或相对于视点表现出较大运动时,生成式和非生成式方法都会遇到困难,导致严重的伪影、不一致的几何形状和不真实的纹理。

为了解决这些局限性,作者引入了DeclutterSet,这是一个新颖的数据集,旨在反映现实世界中的遮挡复杂性。与先前数据集的设置不同,DeclutterSet仔细考虑了不同距离物体的空间分布,确保遮挡相对于明显的视点变化表现出显著的运动。通过纳入前景、中景和背景物体在不同视图间移动的各种场景,DeclutterSet为评估遮挡去除方法提供了更现实的基准。

在DeclutterSet基准的基础上,作者提出了DeclutterNeRF,这是一种简单直接的基于优化的方法,利用NeRF固有的跨视图一致性来解决遮挡去除后的恢复问题。作者没有依赖生成式模型,而是证明了对经典NeRF框架的有针对性的改进可以在这个任务中取得卓越的结果。作者使用SAM [15]进行初始遮挡分割,该方法专注于以最小的计算开销从可见区域优化重建。作者首先观察到遮挡的存在会改变相机参数估计,导致次优的姿态重建。受3D重建中相机姿态估计方法[9, 16, 48]的启发,作者将相机参数优化作为一个可学习的组件,允许进行多视图联合优化以纠正姿态偏移并缓解局部最小值问题。为了确保在遮挡去除后(此时只有有限的像素可用于渲染)的稳定学习,作者提出了遮挡退火正则化(Occlusion Annealing Regularization, OAR),它可以减少被遮挡区域的影响,提高训练稳定性并防止过拟合。最后,作者采用随机结构相似性损失(Stochastic Structural Similarity Loss, S3IM)[52]来解决由于非固定遮挡区域导致的背景像素的长尾分布问题,这会导致光线采样不均衡。作者的实验表明,这些有针对性的优化使DeclutterNeRF在遮挡去除和恢复任务中显著优于以前基于优化和生成式的方法,同时保持计算效率。作者总结了以下贡献:

  • 作者引入了DeclutterSet,这是一个新颖的遮挡去除数据集,具有多样的现实世界遮挡场景,捕捉多位置空间分布和视点相关的变化。

  • 作者提出了DeclutterNeRF,这是一个无生成式的遮挡去除框架,它使用NeRF的隐式多视图一致性来重建3D场景,确保可靠且高质量的结果,而无需额外的训练成本。

  • 作者强调了遮挡去除对相机姿态估计的影响,纳入了多视图联合可学习相机参数优化,并提出了遮挡退火正则化(OAR),以改善鲁棒渲染过程并在遮挡去除后稳定训练,缓解局部最小值和过拟合问题。

  • 作者从理论和实验上验证了随机结构相似性[52]的“不合理有效性”,展示了其在作者任务中的更广泛适用性。

unsetunset三、方法unsetunset

3.1 预备知识

神经辐射场:NeRF [23]是一种视图合成方法,将场景编码为隐式连续体体积函数。设 表示空间中的一个3D点, 表示观察方向。NeRF的核心是一个多层感知器(MLP) ,其中 是MLP的参数。它将一个3D位置和观察方向映射到颜色 和体积密度 。相机姿态 主要从姿态估计工具COLMAP [35, 36]中获得。

NeRF中的位置编码:直接对原始输入 进行优化使得NeRF难以捕捉高频细节。为了缓解这个问题,映射 被分解为 ,其中 将输入编码到更高维空间 。位置编码 定义为:

其中 是一个超参数,控制最高编码频率。该编码应用于3D位置向量 (归一化到 )和观察方向向量 中的单位向量)的每个分量。在大多数情况下,对于 ;对于

随机结构相似性(S3IM):S3IM[52]是结构相似性(SSIM)[47]的基于补丁的随机变体,旨在将全局结构监督引入NeRF训练。与逐点损失均方误差(MSE)或局部监督SSIM不同,S3IM通过对渲染的辐射场 和真实图像 之间随机采样的图像补丁计算SSIM,捕捉非局部和跨视图的结构一致性。给定渲染的辐射场 和真实图像 ,损失通过从渲染图像 和真实图像 中采样 对补丁 来计算。每个补丁大小为 ,采样步长 。最终的S3IM损失定义为:

其中 表示对应补丁之间的结构相似性。

3.2 相机参数的联合优化

作者对遮挡对相机参数估计的影响的关注源于计算机视觉和图形学中的经典见解[39, 44]。如图3所示,遮挡物会干扰姿态估计,导致重建质量下降。一个直接的解决方案是在遮挡去除后使用更清晰、无遮挡的2D观测重新校准相机参数,这通常会提高重建质量。然而,为了进行公平比较并测试鲁棒性,作者保留了在遮挡下估计的原始相机参数。作者的目标是利用无遮挡设置作为进一步细化这些参数的一种手段。为此,作者将相机参数纳入联合优化框架。以光度损失作为主要监督,作者的框架逐步校正相机姿态,从而提高重建性能。

[16, 48]提出了类似的工作,旨在完全解决NeRF对相机参数的依赖问题。然而,这些方法在训练过程中容易陷入局部最小值。同样采用这种方法的OCC - NeRF [58],由于这个问题,往往产生较差的重建质量,并且只能处理相机位置的小幅度移动。基于作者的分析,他们在每次训练迭代中仅采样一张图像,尽管OCC - NeRF利用预训练的ResNet为扭曲的特征图提取特征,但这种高级特征提取和投影变换无法满足NeRF对细粒度几何细节的要求,使得难以有效处理相机姿态的细微差异。

作者方法的改进直观且易于理解。如图2中的初始采样过程所示,与传统的从单个视图采样的方法不同,作者通过从整个图像集中均匀采样有效像素,对所有视图进行联合优化,从而能够同时细化所有视点的相机参数。这种方法是有充分依据的。首先,先前的结果[48]表明,当NeRF参数陷入局部最小值时,焦距参数往往会显著偏离校准值。由于焦距在所有输入视图中是共享的,将焦距采样分布在所有视图上有助于其稳定优化。其次,如图2中的采样过程所示,故意绘制多条相交光线作为示例,体绘制过程在多视图优化期间处理多条相交光线。这利用了立体输入的优势,即相交光线联合优化共享参数,增强了稳定性。这也与最近NeRF训练方法的主流趋势一致。最后,通过调整学习率并实施延迟相机优化策略,作者避免了训练过程中潜在的局部最小值问题。

表示MLP的参数, 表示相机参数, 表示步骤 时的当前相机参数, 是迭代总数, 是输入图像集。作者将联合优化目标表述为:

其中 是作者延迟相机参数优化的起始步骤, 表示总共使用一批 条光线,并且从每个图像中均匀采样 个样本。 是渲染图像与有限可见真实像素之间的光度损失。在作者的联合优化框架中,它主要由 监督。此损失和其他损失的具体权重在4.1节中详细说明。

3.3 遮挡退火正则化(OAR)

在遮挡去除后的重建中,最显著的问题源于由于遮挡的非固定分布导致的可见区域的可变性。这会产生两个影响:1)一些区域由于在多个视图中未充分可见而欠拟合;2)可见区域的变化会导致训练过程不稳定,容易出现过拟合。为了解决这些问题,作者提出了遮挡退火正则化(OAR)。

OAR的核心思想是逐渐减少被遮挡区域对训练的影响。在训练的早期阶段,模型对所有像素平等对待,包括那些可能被遮挡的像素。随着训练的进行,作者逐渐降低被遮挡区域像素的权重,使得模型更加关注可见区域的稳定重建。具体来说,设 表示与被遮挡区域相关的损失项, 是控制OAR强度的超参数。作者将OAR损失项纳入整体损失函数中,如下所示:

在训练过程中, 从一个较大的值开始,随着迭代次数的增加逐渐减小到零。这种退火策略确保了模型在训练初期能够从所有可用数据中学习,而在后期能够集中精力优化可见区域,从而提高训练的稳定性并防止过拟合。

3.4 随机结构相似性损失(S3IM)

如3.1节所述,S3IM位于 之间,与图像质量正相关,因此其损失定义为:

这涉及到基于补丁的随机结构相似性SSIM [47],但在全局范围内。为了更好地理解这种损失公式如何缓解长尾可见性问题,作者首先描述潜在的像素可见性分布。在被遮挡场景的图示中,像素可见性遵循长尾模式:

其中 表示像素可见性,即在多少个视图中一个像素是可见的, 对应最大可见性。S3IM在所有视图中随机采样光线并将它们分组为 的补丁。每个补丁的可见性定义为:

这将每个像素的可见性分布 转换为补丁级别的分布 ,其中

相比, 是一个补丁的平均可见性。通过对高可见性和低可见性像素进行聚合,每个补丁的可见性自然得到缓和:

这种混合效果缩短了可见性分布的尾部,导致在优化过程中梯度更加集中。通过平衡不同可见性水平的监督,它增强了稳定性并改善了在稀疏观察区域的重建。

unsetunset四、实验unsetunset

4.1 实验设置

数据集:由于遮挡去除和重建问题的新颖性以及现有数据集的可用性有限,作者遵循NeRF的模式,使用LLFF数据集[22]中的8个场景,并创建了一个包含8个被遮挡场景的数据集。如图5所示,DeclutterSet由八个被遮挡场景组成,包括四个来自现有基准的场景和四个新采集的场景,确保了遮挡类型和场景布局的平衡分布。具体来说,(a)兰花场景取自经典的LLFF数据集,(b)栏杆场景来自OCC - NeRF数据集,(c)雕像和(d)梯子场景来自数据集IBR - Net [45],该数据集目前已成为物体去除的主流数据。对于作者构建的数据,(e)到(h),每个场景由大约30张使用佳能R6 Mark II或iPhone 12 Pro拍摄的图像组成。按照主流方法,作者通过留出1/8的图像创建了测试集。掩码注释和传播的详细信息在补充材料中描述。

基线与指标:作者将自己的方法与用于新视图合成(NVS)中物体和遮挡去除的生成式和非生成式的当前最先进方法进行比较。具体而言,OCC - NeRF [58]作为无生成式基线,而SPIn - NeRF [24]和MVIP - NeRF [4]代表生成式基线。作者对渲染结果进行定性和定量评估。对于定性分析,作者在主论文和补充材料中展示了所有场景的可视化。对于定量评估,作者报告标准的NeRF重建指标,即峰值信噪比(PSNR)、结构相似性指数测量(SSIM)和学习到的感知图像块相似度(LPIPS),仅在非遮挡像素上计算。

参数:与大多数基于学习的3D重建方法类似,DeclutterNeRF也受超参数的影响。作者将频率正则化的终止设置为总迭代次数的10%,在总迭代次数的20%时开始相机参数优化,并将遮挡退火正则化的 设置为100。作者的 由三个主流损失函数组成: 的权重设置为0.01。更多细节可在补充材料中找到。

4.2 比较结果

定性评估:图6将作者方法的渲染结果与OCC - NeRF、SPIn - NeRF和MVIP - NeRF进行了比较。掩码表示作者旨在去除的遮挡物体。作者的管道能够在几乎无需手动干预的情况下选择性地去除遮挡,包括远处的灯和前景中未开放的兰花花蕾,同时实现逼真的重建。相比之下,OCC - NeRF仅能充分处理远处场景,经常去除附近期望保留的物体,并且无法重建近距离细节。对于像LLFF这样主要由近距离场景组成的数据集,OCC - NeRF的性能受到显著限制。即使对于远处场景,OCC - NeRF的深度扭曲策略也会阻碍优化过程,导致模型难以处理复杂几何形状,从而产生往往看起来模糊的较差重建质量。作者的联合相机参数优化策略有效地避免了局部最小值陷阱,并利用这种优化实现高质量重建。

SPIn - NeRF和MVIP - NeRF在作者的DeclutterSet上的性能与作者的模型也有显著差异。SPIn - NeRF对COLMAP和预渲染深度先验的严重依赖影响了其重建能力,当深度信息无法准确恢复时,尤其是在远处场景中,经常导致渲染失败。更多失败案例、参数设置和详细分析可在补充材料中找到。即使是声称不依赖深度先验的MVIP - NeRF,在户外远处场景中也表现不佳。此外,在相对简单的场景中,这些生成式方法极易过拟合。随着训练的进行,重建质量趋于平稳,而伪影增加,降低了整体结果。作者的方法有效地避免了由于遮挡区域曝光水平变化导致的过拟合和欠拟合问题,并抑制了伪影的产生,实现了最佳的重建结果。

定量评估:作者将自己的方法与OCC - NeRF进行定量评估,OCC - NeRF是唯一能够处理DeclutterSet中所有场景的无生成式基线。如表1所示,DeclutterNeRF在所有标准NeRF指标上都取得了一致且显著的改进。在诸如兰花、链式围栏和椅背等具有挑战性的场景中,性能差距尤为明显,在这些场景中,OCC - NeRF的固定近距离去除策略难以适应不同的遮挡深度和场景复杂性。这在兰花场景中尤为明显,如图6所示,OCC - NeRF的输出中没有保留任何花朵,导致其PSNR得分最低之一。相比之下,作者的方法有助于在各种遮挡设置下实现更鲁棒、无伪影的重建。

除了准确性,DeclutterNeRF还展示了较高的实际效率,这得益于作者的多阶段架构改进。它在单个NVIDIA RTX 4090 GPU上不到10小时即可完成训练,内存消耗保持在10GB以下。相比之下,OCC - NeRF需要超过30小时的训练时间,而基于扩散和蒸馏的学习方法MVIP - NeRF需要超过100GB的GPU内存。这种效率水平使DeclutterNeRF更易于使用,更适合广泛采用和大规模实验。

4.3 消融研究

作者在表2中展示了消融研究的影响以及每个组件的逐步引入。最初,作者训练(i)一个掩码NeRF,它简单地使用非遮挡掩码区域进行训练。随后,作者引入(ii)相机参数的联合优化,这提高了所有渲染指标。值得注意的是,虽然(iii)遮挡退火正则化(OAR)的使用导致渲染指标略有下降,但它解决了伪影和渲染不完整的主要问题。作者在图7中展示了这一点,明显增强了实际视觉效果。最后,作者引入S3IM损失以进一步解决由于遮挡导致的重建成本问题。

4.4 局限性

作者的实验假设被遮挡区域至少从其他视点部分可见,因为作者没有生成式先验来重建场景中不可见的部分。在遮挡完全从所有视图隐藏目标内容的情况下,生成式先验仍然是必要的。然而,作者相信未来的生成式方法可以基于作者的框架——首先从可观察数据中最大化重建,然后通过有针对性的生成来细化剩余的差距。这种分层策略有望为遮挡感知场景恢复带来效率和一致性。

unsetunset五、结论unsetunset

作者引入了DeclutterSet,这是一个旨在反映具有多样物体布局和视点变化的现实世界遮挡复杂性的数据集,解决了现有基准的关键局限性。在此基础上,作者提出了DeclutterNeRF,这是一个无生成式框架,利用NeRF的多视图一致性、联合相机优化、遮挡退火正则化和随机结构相似性损失。作者的方法在这个特定任务上以最小的计算开销实现了当前最先进的性能。作者希望这项工作为遮挡和物体去除提供更广阔的视角,并为未来基于生成式或优化的鲁棒且高效的3D场景重建研究奠定基础。

本文仅做学术分享,如有侵权,请联系删文。

图片

3D视觉硬件

图片

3D视觉学习圈子

「3D视觉从入门到精通」知识星球(点开有惊喜) !星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

图片

3D视觉全栈学习课程:www.3dcver.com

image

3D视觉交流群成立啦

图片 添加微信:cv3d001,备注:方向+单位,邀请入群 点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~ 

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值