NARUTO: 基于不确定目标观测的神经主动重建

1 摘要

        我们提出了NARUTO,一种神经主动重建系统,它结合了混合神经表示和不确定性学习,实现了高保真表面重建。

        我们的方法利用多分辨率哈希网格作为映射骨干,选择它是因为它具有出色的收敛速度和捕捉高频局部特征的能力。

        我们工作的核心是引入了一个不确定性学习模块,该模块在主动重建环境的同时动态量化重建不确定性。

        通过利用学习到的不确定性,我们提出了一种新颖的不确定性聚合策略,用于目标搜索和高效路径规划。

        我们的系统通过针对不确定观测进行自主探索,从而实现环境的高完整度和高保真度重建。        

        我们还通过增强SOTA神经SLAM系统的主动光线采样策略展示了这种不确定性感知方法的实用性。

        在各种环境下使用室内场景模拟器对NARUTO进行了广泛评估,其优越性能和在主动重建中的SOTA地位,通过在Replica和MP3D等基准数据集上的出色表现得到了验证。

2 引言

        在计算机视觉研究领域,一个最显著的进步是能够从一系列2D图像或场景视频中生成详细的3D重建。这一复杂过程在实时执行时,涉及随着额外视觉数据的整合逐步进行的3D建模,主要通过同时定位与建图(SLAM)来实现。在许多机器人应用中,SLAM系统在规划和导航等任务中起着关键作用。这种定位、建图、规划和导航任务的集成构成了所谓的主动SLAM的本质。我们的论文特别研究了主动SLAM的一个子集,称为主动重建,假设定位已经建立。我们通过采用复杂的、学习的混合神经表示,进行了一次创新的主动重建探索。在这项工作中,我们设计了能够精确规划和操控相机轨迹的方法,以提高场景重建的完整性和质量。

        神经表示,尤其是隐式神经辐射场(NeRFs),最近已应用于各种几何应用,如3D物体重建、新视角渲染、表面重建和生成模型。尽管许多这些方法专注于已定位的相机,最近的工作已经扩展到更广泛的任务,如从运动中结构(SfM)和SLAM。尽管NeRFs具有令人印象深刻的能力,其处理速度仍然是一个挑战。为了解决这一问题,开发了更高效的混合神经表示。

        将这些表示集成到主动视觉应用中仍然面临重大挑战。现有利用神经表示进行路径规划的研究有限,只有少数最近的研究探索了使用神经表示进行主动重建。这些方法虽然创新,但通常受到NeRFs固有的低速限制。此外,它们通常将代理的移动限制在受限区域内。

        为了克服上述限制,我们引入了NARUTO,一种突破性的神经主动重建系统。NARUTO结合了混合神经表示和新颖的不确定性感知规划模块,在高保真表面重建和主动规划方面表现卓越。我们的主要贡献如下:

  • 首个在不受限制空间中以6自由度运动操作的神经主动重建系统。
  • 一个实时量化重建不确定性的不确定性学习模块。
  • 一个新颖的不确定性感知规划特性,具有精心设计的不确定性聚合用于目标搜索和高效路径规划。
  • 主动光线采样策略提升了各种任务中的映射模块的性能和稳定性。
  • 在主动重建性能方面表现出色,将重建完整度从73%提高到90%。

 

3 相关工作

(1)主动重建

        在自主机器人领域,定位、建图、规划和运动控制是基本能力。这些要素引发了诸如视觉里程计、单目深度估计、多视角立体、从运动中结构、路径规划和SLAM等研究领域。主动SLAM结合了这些方法进行自主定位、建图和规划,最大限度地减少环境建模中的不确定性。我们将读者推荐至综述论文以全面讨论主动SLAM的发展。我们的重点是主动重建,通常作为探索问题进行研究,寻求最佳运动以实现准确的环境表示,主要用于从多个视角进行场景和物体重建。

(2)神经表示

        NeRFs使用多层感知器(MLPs)将场景表示为连续的神经辐射场。NeRF的潜力已经在新视角渲染、物体和表面重建以及生成模型等多个应用中得到了展示。然而,体积渲染过程涉及查询大量样本点以生成图像,使得训练NeRFs耗时,通常需要大约一天时间来处理简单场景。尽管已经努力加速NeRFs,这些方法仍未达到实时应用速度。最近的研究通过混合表示,结合隐式和显式元素,实现了快速速度。混合表示的进步在满足SLAM挑战的实时需求方面发挥了重要作用。尽管有这些进展,神经表示在主动视觉问题中的应用仍是一个未充分探索的领域。

(3)神经主动视觉

        我们的研究建立在先前探索使用NeRFs进行路径规划和主动重建的工作之上。NeRFs用于路径规划的研究从基于NeRF的场景表示中推导出最佳路径。最近的研究集中在主动建图,通过下一个最佳视角选择策略优化NeRFs。然而,这些方法受制于NeRFs固有的低速,限制了它们在机器人中的实时应用。提出了一种使用混合表示的高效框架来解决这些速度问题。同时,某些研究将范围从以物体为中心的重建扩展到更大的室内环境。然而,这些方法仍将相机运动限制在半球或二维平面内。相比之下,NARUTO实现了在不受限制空间中的6自由度探索。

4 NARUTO: 神经主动重建

        NARUTO 的感知规划模块图(图 2)展示了该系统的整体工作流程和模块间的交互。以下是对图 2 的详细讲解:

(1)关键帧生成与数据存储

        在达到关键帧步骤时,HabitatSim 生成带有姿态的 RGB-D 图像。这些图像中的部分像素会被采样并存储在观察数据库中。采用混合射线采样策略(结合随机和主动方法),从当前关键帧和数据库中选择一部分射线。

(2)混合场景表示

        这些射线会被输入到混合场景表示模块(地图)中,以推断相应的颜色、签名距离函数(SDF)、深度和不确定性值。这些预测结果会用于不确定性感知的捆绑调整(Bundle Adjustment),从而更新场景的几何结构和重建不确定性。

(3) 地图更新

        地图随即被更新。系统采用新颖的不确定性感知规划算法,根据 SDF 和不确定性值确定目标位置和路径。这个过程包括两大步骤:目标搜索和路径规划。

4. 不确定性聚合策略

        目标搜索过程中,使用最新的映射模型 MM 生成一个包含 SDF 体积 V_sVs​ 和不确定性体积 V_\sigmaVσ​ 的目标空间。目的是找到能够观测到最大不确定性区域的最佳观测点。为了高效地确定这个位置,系统开发了一种新的不确定性聚合策略。

5. 路径规划

        一旦找到最佳观测点,系统会执行高效的路径规划,确定通往目标的路径。随后,智能体执行规划好的行动,进行路径上的移动。

6. 执行动作与数据库更新

        智能体沿着规划路径执行动作。在关键帧步骤,获取新的观测数据 O_tOt​,并更新数据库 \{O\}_{i=0}^t{O}i=0t​。之后,映射模型 M_tMt​ 也会进行相应的优化更新。

7. 重新规划条件

        如果在执行过程中检测到碰撞或到达目标位置,系统会更新是否需要重新规划的状态。

总结

        NARUTO 系统结合了混合神经表示与不确定性学习,并通过不确定性感知规划模块,实现了高保真度的表面重建和主动规划,能够在未受限制的空间内进行 6 自由度运动。这些特性使其在多种任务中表现出色,特别是在增强神经映射方法的性能和稳定性方面。

        图 2 直观地展示了整个系统的流程,包括关键帧生成、混合场景表示、不确定性感知的捆绑调整、地图更新和不确定性感知的路径规划等关键步骤,为理解 NARUTO 系统的工作原理提供了清晰的视图​。

        本节介绍了NARUTO,一个在不确定性感知规划中具有开创性的神经框架。我们的方法从神经3D映射模块开始,利用混合表示进行实时、高保真表面重建。我们采用Co-SLAM作为映射骨干,如第3.1节所述,奠定了使用混合神经表示进行3D重建的基础。第3.2节深入探讨了联合优化方法,将捆绑调整与不确定性学习结合在一起。第3.3节介绍了不确定性感知规划模块,用于目标搜索和路径规划。第3.4节介绍了一个多功能的主动光线采样模块,该模块利用学习到的不确定性,设计用于无缝集成到现有神经映射方法中。最后,总结了第3.5节中的主动重建过程。

         本节详细介绍NARUTO的构建和实现,具体包括神经3D映射模块、联合优化方法、不确定性感知规划模块和主动射线采样模块。

4.1 神经3D映射模块

        NARUTO的3D映射模块基于混合神经表示,具体采用了多分辨率哈希网格映射。这种方法将场景的3D几何和纹理信息编码到神经网络中,使得系统能够高效地重建高保真度的3D场景。

  • 多分辨率哈希网格:这种方法将不同分辨率的特征存储在多个哈希网格中,捕捉场景的不同尺度信息。通过插值和组合这些特征,可以实现高效的几何和纹理重建。
  • 混合神经表示:结合显式和隐式表示,显式表示用于捕捉高频细节,隐式表示用于生成平滑的整体结构。这样的方法既保证了细节的丰富性,又提高了重建的速度。

4.2 联合优化方法

        在神经3D映射的基础上,我们引入了联合优化方法,将捆绑调整(Bundle Adjustment, BA)与不确定性学习相结合。

  • 捆绑调整:优化相机参数和3D点的位置,使得多视图图像的重投影误差最小化。这一步骤确保了不同视角下场景的一致性。
  • 不确定性学习:引入不确定性估计模块,动态量化每个像素或体素的重建不确定性。这种不确定性信息用于指导后续的主动规划和重建策略。

4.3 不确定性感知规划模块

        不确定性感知规划模块是NARUTO的核心创新之一,它通过利用不确定性信息来进行目标搜索和路径规划。

  • 目标搜索:通过分析不确定性图,识别高不确定性区域。这些区域通常是重建中未被充分覆盖或存在较大误差的部分。
  • 路径规划:基于不确定性聚合策略,设计最优路径,使得相机能够以最小的运动覆盖更多的高不确定性区域,从而提高重建的完整性和精度。

        图3展示了NARUTO框架中不确定性感知规划模块的优化过程。该图详细说明了通过不确定性网(Uncertainty Net)和不确定性网格(Uncertainty Grid)进行的不确定性学习和优化对比。

主要内容与流程

  1. 不确定性网(Uncertainty Net)

    • 不确定性网是利用神经网络来预测和学习不确定性。
    • 优化过程中,不确定性网在不同参数更新阶段会产生波动,这导致了不确定性值的不稳定性。
    • 在图中,我们可以看到利用不确定性网时,优化过程中不确定性值会有显著的波动。
  2. 不确定性网格(Uncertainty Grid)

    • 不确定性网格使用显式表示来捕捉和优化不确定性。
    • 不确定性网格在优化过程中展示了更高的稳定性,相比于不确定性网,其不确定性值变化较为平滑。
    • 图中显示了不确定性网格的收敛速度和其在优化过程中更加一致的变化趋势。
  3. 对比与分析

    • 收敛速度:两者都展示了快速的收敛能力,这证明了该方法在不确定性感知规划中的有效性。
    • 稳定性:不确定性网格比不确定性网更为稳定,这从其不确定性值和完成率之间的强相关性可以看出。
    • 重建完整性:利用不确定性网格进行重建的完整性高于使用不确定性网,这表明了不确定性网格在实际应用中的优越性。

        图3通过上述对比,突出展示了不确定性网格在不确定性感知和重建任务中的优势,并为后续的路径规划提供了更为稳定和可靠的基础。

 

4.4 主动射线采样模块

        为了进一步提高重建效率和精度,NARUTO引入了主动射线采样模块。

  • 射线采样:传统的射线采样方法通常均匀分布在整个场景中,而NARUTO通过学习到的不确定性信息,动态调整射线的采样密度和方向。重点在高不确定性区域进行更多采样,以捕捉更多细节。
  • 集成到现有神经映射方法中:主动射线采样模块设计为可无缝集成到各种现有的神经映射方法中,增强其性能和稳定性。

4.5 主动重建过程

        结合以上各个模块,NARUTO的主动重建过程如下:

  1. 初始扫描:系统首先进行一次初步扫描,建立基本的3D场景表示。
  2. 不确定性计算:根据初始重建结果,计算每个像素或体素的不确定性。
  3. 目标区域识别:利用不确定性图识别高不确定性区域,作为目标区域。
  4. 路径规划:基于目标区域,进行路径规划,设计相机的运动轨迹。
  5. 细节采集:沿规划路径进行详细扫描,特别关注高不确定性区域,利用主动射线采样方法提高重建精度。
  6. 更新和优化:将新采集的数据整合到3D场景中,进行捆绑调整和不确定性更新。
  7. 迭代:重复步骤2至6,直到重建达到预定的完整性和精度标准。

        通过上述步骤,NARUTO能够在不确定性驱动下,实现高效且高保真的3D场景重建。这种方法不仅提高了重建的质量,还显著提升了重建过程的速度和鲁棒性。

5 试验部分总结

5.1 实验设置

  • 硬件环境:所有实验在一台配备2.2GHz Intel Xeon E5-2698 CPU和NVIDIA V100 GPU的桌面电脑上进行。
  • 内存需求:内存消耗视场景大小而定。在一个120立方米的场景中,对应的GPU内存和RAM分别为8.1GB和8.6GB。通过更高效的实现,内存消耗可以进一步降低 。

5.2 评估环境

  • 模拟器:实验使用HabitatSim模拟器,该模拟器生成带有姿态的RGB-D图像。选取部分像素存储在观察数据库中,并结合随机和主动方法的混合射线采样策略,从当前关键帧和数据库中选择一部分射线进行处理,以推断相应的颜色、签名距离函数(SDF)、深度和不确定性值 。

5.3 评估指标

  • 评估场景:在各种环境下对NARUTO系统进行了严格评估,使用室内场景模拟器对其进行了测试,并在Replica和MP3D等基准数据集上表现出色 。
  • 性能对比:与现有方法相比,NARUTO系统在主动重建方面表现优越,显著提高了重建的完整性和质量。特别是在不确定性网格(Uncertainty Grid)的帮助下,重建的稳定性和完整性显著提高,相较于不确定性网络(Uncertainty Net),不确定性网格展示了更强的稳定性和一致性 。

5.4 结果展示

  • 定性结果:定性比较表明,使用不确定性网格比使用不确定性网络能够实现更高的重建完整性 。
  • 关键发现:实验结果表明,不确定性网格在重建过程中提供了更高的稳定性和可靠性。使用不确定性网格时,完成比例与不确定性值呈现出清晰的正相关关系,而不确定性网络则没有这种强关联 。

 

通过这些实验和评估,NARUTO系统展示了其在主动重建中的优越性能和可靠性,为未来的实际应用和研究提供了坚实的基础。

6 讨论

        总而言之,NARUTO代表了神经主动重建领域的重大进展。通过结合混合神经表示与不确定性学习,以及新颖的不确定性感知规划模块,我们呈现了首个能够在不受限制空间中执行6DoF运动的神经主动重建系统。此外,通过我们的主动射线采样策略增强最先进的神经映射方法,进一步展示了NARUTO的多功能性和实用性。使用室内场景模拟器在各种环境中的严格评估显示,我们的系统表现出优越的性能,在Replica和MP3D等基准数据集上表现优异,设立了主动重建的新标准。

        尽管NARUTO表现出色,未来的研究方向已被确定以推进这一领域。首先,当前已知定位和完美动作执行的假设在现实世界场景中可能并不成立,这表明需要一个更强大的规划和定位模块以增强其现实应用性。其次,实际应用中至关重要的代理运动限制应被考虑,以完善系统的通用运动解决方案。最后,主要关注场景完整性的单分辨率不确定性网格可以演变为多分辨率不确定性表示,以满足多样化的需求。这些未来的探索旨在增加NARUTO在现实世界设置中的实用性和适应性,推动自主机器人系统的边界

 

  • 34
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

LeapMay

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值