作者 | Deep蓝同学 编辑 | 深蓝AI
原文链接:https://arxiv.org/abs/2311.09525
点击下方卡片,关注“自动驾驶之心”公众号
ADAS巨卷干货,即可获取
点击进入→自动驾驶之心【SLAM】技术交流群
本文只做学术分享,如有侵权,联系删文
导语:
本文提出了一种基于神经隐式表示的全局一致的低延迟的SLAM系统,名为NGEL-SLAM。该系统能够实现高精度的定位和高保真的场景重建,同时保证全局一致性和低延迟。这个系统使用了多个神经隐式场来表示场景,每个神经隐式场对应一个局部区域,利用了闭环检测来调整闭环,使用了神经辐射场的渲染方法来生成RGB-D图像和表面网格。这个系统在合成和真实世界的数据集上,与其他最先进的SLAM系统进行了比较,表现出了更好的性能。
▲图1|渲染和定位结果。与NICE-SLAM相比,我们的方法渲染了更高保真的图像,提供了更精确的相机定位结果。此外,我们的方法实现了快速收敛,并在环路闭合后启用低延迟地图更新,使其比NICE-SLAM快10倍。真实相机轨迹以黑色显示,估计的轨迹以红色显示。
SLAM是计算机视觉中一个基础而又具有挑战性的问题,它涉及在更新一个未知环境的地图的同时,定位一个智能体的位置。在交互式应用中,如增强现实/虚拟现实(AR/VR)和机器人,SLAM系统不仅需要具有精确的定位和地图构建能力,还需要全局一致性和低延迟。传统的SLAM系统,如ORB-SLAM3,具有低延迟、高精度的定位,并利用闭环检测来保证全局一致性。但是,这些系统只能构建稀疏的点云地图,缺乏密集的几何和纹理信息。近年来,神经隐式表示的进展使得能够进行精确和密集的三维表面重建。因此,一些基于神经隐式表示的SLAM系统被提出。作为这一方向的先驱工作,iMAP和NICE-SLAM基于神经表示实现了定位和地图构建,从而实现了高保真的场景重建。然而,基于神经表示的定位缺乏闭环检测的支持,导致在大场景中由于缺乏全局一致性而表现不佳。即使将闭环检测集成到他们的系统中,也很难快速地调整神经表示以适应闭环,从而导致较高的延迟。
为了解决上述问题,本文提出NGEL-SLAM。为保证全局一致性,我们的系统利用传统基于特征的定位模块结合环路闭合。另外,我们通过表示场景为多个神经隐式子图,实现对环路闭合的快速调整。此外,我们的系统通过使用基于八叉树的隐式表示实现快速收敛。环路闭合响应快速和收敛快的结合使我们的系统成为真正低延迟的系统,同时保证全局一致性。我们的系统实现高保真RGB-D图像渲染,以及提取稠密完整表面。在各种合成和真实环境数据集上的实验表明,与基准方法相比,我们的系统在定位与制图精度上处于领先地位,同时保持低延迟。
▲图2|NGEL-SLAM系统流程图。
本文提出的系统包含两个主要模块:定位模块和制图模块。它们可以进一步分为三个过程:定位、动态局部制图和环路闭合。这三个过程协同工作以确保我们系统中的全局一致性和低延迟。定位过程以RGB-D流为输入,实时定位相机姿态。如果一帧被选为关键帧,则被传递到动态局部制图过程。在这个过程中,定位模块执行局部BA,而制图模块训练相应的局部地图。检测到环路时,环路闭合过程优化相机姿态使用全局BA,并更新场景表示。所有过程并行执行。三个过程具体展开如下:
定位过程使用了ORB-SLAM3的定位方法,利用RGB-D图像中的特征点进行相机位姿的估计。定位模块还负责进行闭环检测,通过比较当前帧和历史帧的特征点,找出可能的闭环候选帧,并通过全局姿态图优化来消除累积误差。
动态局部制图过程使用了多个神经隐式场来表示场景,每个神经隐式场对应一个局部区域。神经隐式场是一个基于八叉树的隐式表示,它使用一个多层感知机(MLP)来预测给定空间位置的几何和纹理信息。地图构建模块根据当前帧的位姿和深度,更新对应的神经隐式场的参数,从而实现实时的场景重建。
▲图3|制图网络。制图网络采用稀疏的八叉树结构存储多级特征,以及两个单独的MLP。
环路闭合过程在指检测到闭环时,会触发一个闭环调整的过程,即将闭环帧对应的神经隐式场与当前帧对应的神经隐式场进行融合,从而保证全局一致性。闭环调整的过程是快速的,因为只需要调整少量的神经隐式场的参数,而不需要重新优化整个场景的表示。
本文的实验方法包括了在合成和真实世界的数据集上,对定位和地图构建的精度和效率进行评估,并与其他最先进的SLAM系统进行比较。实验数据集包括了ICL-NUIM,TUM-RGBD,ScanNet,SUN3D和7-Scenes。实验结果表明,NGEL-SLAM在保持低延迟的同时,实现了最先进的定位和地图构建的精度。
▲表1|在Replica数据集上制图的定量比较。数据来自8个场景的平均值。GT pose和Est pose分别表示使用真实姿态和估计姿态渲染
▲表2|在TUM RGB-D上定位的定量比较。使用指标ATE-RMSE [cm]
▲表3|在ScanNet上的定位定量比较。使用指标ATE-RMSE [cm]
▲图4|在Replica数据集上的渲染结果
▲图5|在ScanNet数据集上的渲染结果
NGEL-SLAM结合了传统SLAM系统ORB-SLAM3的定位精度高,以及神经隐式表示提取密集网格和生成高保真图像的能力。为了保证全局一致性,我们的系统利用了一个传统的基于特征的定位模块,其中包含了闭环检测。我们通过使用多个神经隐式场来表示场景,维护了一个全局一致的地图,从而能够快速地调整闭环。此外,我们的系统通过使用基于八叉树的隐式表示,实现了快速的收敛。闭环检测的快速响应和快速的收敛的结合,使得我们的系统成为一个真正的低延迟的系统,实现了全局一致性。我们的系统能够渲染高保真的RGB-D图像,以及提取密集和完整的表面。在合成和真实世界的数据集上的实验表明,我们的系统在保持低延迟的同时,实现了最先进的定位和地图构建的精度。
① 全网独家视频课程
BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习)
视频官网:www.zdjszx.com② 国内首个自动驾驶学习社区
近2000人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!
③【自动驾驶之心】技术交流群
自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)
④【自动驾驶之心】平台矩阵,欢迎联系我们!