麻省理工最新！NeRF-SLAM: 具有神经辐射场的实时密集单目SLAM

最新推荐文章于 2024-08-09 07:43:54 发布

自动驾驶之心

最新推荐文章于 2024-08-09 07:43:54 发布

阅读量1.2k

点赞数

文章标签：人工智能 python 开发语言

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247509918&idx=3&sn=36d5e68cedda0e49b1a061462343cef1&chksm=ceb88a57f9cf034117ba5b92605afb44cdfe7dd70946469559c43c1d8ee792bdc036fabe9d48&scene=126&&sessionid=0

版权

作者 | 汽车人编辑 | 汽车人

原文链接：https://zhuanlan.zhihu.com/p/583419503

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

点击进入→自动驾驶之心【SLAM】技术交流群

后台回复【SLAM综述】获取视觉SLAM、激光SLAM、RGBD-SLAM等多篇综述！

1论文思路：

本文提出了一种新颖的几何和光度3D映射pipeline，用于从单目图像中准确，实时地重建场景。为此，本文利用了密集的单目SLAM和实时分层体积神经辐射场的最新进展。本文的见解是，密集的单目SLAM通过提供准确的姿势估计和具有相关不确定性的深度图，提供了正确的信息来实时适应场景的神经辐射场。通过本文提出的基于不确定性的深度损耗，本文不仅实现了良好的光度精度，而且实现了出色的几何精度。实际上，本文提出的pipeline实现了比竞争方法更好的几何和光度精度 (高达179% 更好的PSNR和86% 更好的L1深度)，同时实时工作并仅使用单目图像。

2主要贡献：

本文提出了第一个场景重建pipeline，该pipeline结合了密集的单目SLAM和分层体积神经辐射场的优势。本文的方法从图像流中构建准确的辐射场，而不需要姿势或深度作为输入，并且可以实时运行。本文在单目方法的Replica数据集上实现了最先进的性能。

3网络设计：

本文方法的主要思想是使用密集的单目SLAM的输出来监督神经辐射场。密集单目SLAM可以估计密集深度图和相机姿势，同时还提供深度和姿势的不确定性估计。有了这些信息，本文可以训练一个辐射场，其密集深度损失由深度的边际协方差加权。通过使用密集SLAM和radiance field训练的实时实现，并并行运行它们，本文可以实现实时性能。图2显示了本文pipeline中的信息流。

图2。本文pipeline的输入由顺序的单目图像 (这里表示为Img 1和Img 2) 组成。从右上角开始，本文的架构使用Instant-NGP [17] 适合NeRF，本文使用RGB图像I，深度D进行监督，其中深度由其边际协方差 Σ D加权。受Rosinol等人的启发。[23]，本文从密集的单目SLAM中计算这些协方差。在本文的例子中，本文使用Droid-SLAM [31]。本文在Sec3.1 中提供了更多关于信息流的细节。在蓝色中，本文显示Droid-SLAM的 [31] 贡献和信息流，同样，在粉红色是Rosinol的贡献 [23]，在红色中，本文的贡献。

图1。从左到右，输入RGB图像，估计的深度不确定性，反向投影的深度图到点云中，在通过其不确定性 (σ d ≤ 1.0) 对深度进行阈值化以进行可视化之后，以及从与输入图像相同的视点呈现的所得神经辐射场。本文的pipeline能够在仅给定RGB图像流的情况下实时重建神经辐射场。

本文的pipeline由一个跟踪和一个映射线程组成，既实时运行又并行运行。跟踪线程连续最小化关键帧活动窗口的BA重新投影误差。映射线程总是优化从跟踪线程接收的所有关键帧，并且没有活动帧的滑动窗口。

这些线程之间的唯一通信发生在跟踪pipeline生成新的关键帧时。在每个新的关键帧上，跟踪线程都会将当前关键帧的姿势及其各自的图像和估计的深度图以及深度图的边际协方差发送到映射线程。仅将跟踪线程的滑动优化窗口中当前可用的信息发送到映射线程。跟踪线程的活动滑动窗口最多由8个关键帧组成。一旦前一个关键帧和当前帧之间的平均光流高于阈值 (在本文的情况下为2.5像素)，跟踪线程就会生成一个新的关键帧。最后，映射线程还负责渲染以实现重建的交互式可视化。

4实验结果：

表1。Geometric (L1) and Photometric (PSNR) results for the Replica dataset. IMAP和NICE-SLAM首先使用来自Replica的Ground-Truth深度作为监督进行评估（前两行）。本文还评估NICE-SLAM时，不使用 ground-truth 深度作为监督进行比较。TSDF-Fusion, σ-Fusion,和本文的方法是用来自密集单目SLAM的姿态和深度来评估的，如SEC中所解释的。3.1. 最好的结果在粗体。

图3。使用不同的映射方法对Replica Office-0数据集进行定性分析。从上到下，原始点云从本文的跟踪模块，TSDF重建使用σ-Fusion，NICE-SLAM的结果，和本文的。

图4。使用有无ground-truth深度的深度监督，以及初始化有ground-truth的姿态或噪声姿态时对性能的影响；与本文估计密集深度和姿态的方法相比。结果60s后收敛。

往期回顾

2022最新！视觉SLAM综述（多传感器/姿态估计/动态环境/视觉里程计）

【自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、规划控制、模型部署落地、自动驾驶仿真测试、硬件配置、AI求职交流等方向；

添加汽车人助理微信邀请入群

备注：学校/公司+方向+昵称

自动驾驶之心【知识星球】

想要了解更多自动驾驶感知（分类、检测、分割、关键点、车道线、3D目标检测、多传感器融合、目标跟踪、光流估计、轨迹预测）、自动驾驶定位建图（SLAM、高精地图）、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球（三天内无条件退款），日常分享论文+代码，这里汇聚行业和学术界大佬，前沿技术方向尽在掌握中，期待交流！