【三维重建】【SLAM】SplaTAM：基于3D高斯的密集RGB-D SLAM(CVPR 2024)

杀生丸学AI

已于 2024-03-04 09:37:38 修改

阅读量7.2k

点赞数 29

分类专栏：三维重建与编辑 AIGC-生成式人工智能文章标签： 3d 三维重建 NeRF 神经网络 AIGC SLAM

于 2024-02-29 18:37:09 首次发布

本文链接：https://blog.csdn.net/qq_45752541/article/details/136349064

版权

本文介绍了SplaTAM，一个基于三维高斯辐射场的密集RGB - D SLAM系统。它解决了传统和隐式映射表示的局限性，能快速渲染和优化，可显式扩展地图。实验表明，SplaTAM在相机pose估计、地图构建和新视图合成方面性能优异，但对运动模糊等有一定敏感性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

题目：SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM
地址：spla-tam.github.io
机构：CMU（卡内基梅隆大学）、MIT（美国麻省理工）

在这里插入图片描述

总结：SplaTAM，一个新的SLAM系统，利用3D Gaussian Splatting作为底层map表示，渲染和优化更快，明确的地图空间范围，和流线型的地图稠密化。可以同时优化pose估计、场景重建和新视图合成。

摘要

提示：这里可以添加本文要记录的大概内容：

密集的同步定位和建图（SLAM）是具体化场景理解的关键。最近的工作表明，三维高斯使用多个姿态相机，高质量重建和实时渲染场景。我们首次表明，用三维高斯表示一个场景，可以使用无pose的单目RGB-D像机实现密集的SLAM。SplaTAM，解决了辐射场的表示的局限性，包括 快速渲染和优化，确定区域是否已经被map的能力，以及通过添加高斯的结构化地图扩展 。我们 采用了一个在线跟踪和建图框架，同时裁剪它，以专门使用底层的高斯表示和通过可微渲染的silhouette(轮廓)引导的优化 。实验表明，SplaTAM在相机pose估计、地图构建和新视图合成方面达到了高达2×的最先进的性能，同时允许实时渲染高分辨率的密集3D地图。

一、引言

视觉同时定位和建图（SLAM）——估计视觉传感器pose和环境地图的任务——是视觉或机器人系统在以前看不见的3D环境中操作的基本能力。在过去的30年里，SLAM的研究广泛地集中在地图表示的问题上——导致了各种稀疏的[2,3,7,23]、密集的[4,6,8,13,15,25,26,34,41,42]和神经场景表示[21,29,30,37,45,54]。映射表示(Map representation)是一个基本的选择，它会极大地影响到SLAM系统中的每个处理块的设计，以及依赖于SLAM的输出的下游任务。

就密集的视觉SLAM而言，最成功的手工表示是点、surfels/flats 和符号距离场。虽然基于这种地图表示的系统在过去几年中已经成熟到生产水平，但仍有重大的缺陷需要解决。跟踪显式表示的关键是依赖于丰富的三维几何特征和高帧率捕获的可用性。此外，这些方法只能可靠地解释场景中观察到的部分；许多应用程序，如混合现实和高保真度3D捕获，需要的技术也能够解释/合成未观察到的/新的相机视点

手工表示的缺点，加上辐射场表示的高质量图像的出现，推动了将场景编码到神经网络的权重空间的方法。基于辐射场的SLAM算法[30,53]受益于高保真的全局地图和图像重建损失，这些损失通过可微渲染捕获密集的光度信息。然而，目前的方法使用隐式神经表示来模拟体辐射场，在SLAM中导致许多问题——计算效率低，不容易编辑，不明确地建模空间几何，以及灾难性遗忘。

“ 如何使用显式的体积表示来设计一个SLAM解决方案 ？”我们使用一个基于三维高斯的辐射场，来Splat（渲染），跟踪，和建图SLAM。有以下好处：

快速渲染，实现丰富的优化

Gaussian Splatting高达400 FPS的渲染速度，是隐式的替代方案，关键因素是3Dprimitives 的栅格化。SplaTAM做了简单修改，，包括去除与视图相关的外观 和 使用各向同性高斯分布。此外，这允许我们实时使用密集光度损失的SLAM，而传统的和隐式映射表示分别依赖于稀疏的三维几何特征或像素采样来保持效率。

可以显式延申空间的地图

通过只在观察到的部分场景中添加高斯分布，可以很容易地控制现有地图的空间边界。给定一个新的图像帧，这允许人们通过渲染一个silhouette(轮廓)来有效地识别场景的哪些部分是新的内容（在地图的空间边界之外）。这对于相机跟踪至关重要，因为我们只想将场景的映射区域与新图像进行比较。这对于隐式映射表示来说是困难的，因为网络在对未映射空间的基于梯度的优化过程中会受到全局变化的影响