GS-SLAM论文阅读笔记--MM-Gaussian

最新推荐文章于 2025-01-22 11:14:33 发布

zenpluck

最新推荐文章于 2025-01-22 11:14:33 发布

阅读量1.6k

点赞数 17

分类专栏： GS论文阅读文章标签：论文阅读笔记

本文链接：https://blog.csdn.net/qq_45795134/article/details/142093532

版权

GS论文阅读专栏收录该内容

12 篇文章

订阅专栏

介绍

这是一篇多模态的GS-SLAM，也已经被IROS2024录用。由于多传感器融合的GS-SLAM还是比较少的，所以应该仔细阅读一篇。
在这里插入图片描述

文章目录

介绍
1.背景介绍
2.关键内容
3.文章贡献

1.背景介绍

传统的SLAM方法往往受到地图表示的限制，如点云,surfel和voxel，它们只能以固定的分辨率重建地图。这一限制阻碍了对场景复杂纹理的捕捉，并阻碍了SLAM实现合成新视点等功能.此外，户外场景由于其无界特性，带来的挑战呈现出特别的复杂性。
现存方法通常是基于RGB-D或单目相机。单目相机中深度数据的缺失会导致三维高斯分布的不准确。同时，RGB-D相机捕获的深度信息范围有限，使其在广阔的户外场景中的使用变得复杂。
我们观察到现实世界中退化的场景，如无纹理的地面和墙壁，会导致定位错误，从而可能导致地图构建失败。

2.关键内容

2.1 跟踪

由于图像中缺乏3D信息，直接求解相机的姿势可能具有挑战性或不准确。所以作者首先使用点云配准算法估计激光雷达在时刻T的姿态。具体来说，对于三维高斯地图中的每个高斯点 $G_i$ ，作者将标记它是来自激光雷达还是密度的结果。只保留LiDAR起源点的位置属性，将其视为一个正常的点云，然后在时刻t与LiDAR点 $P^ L_ t$ 进行配准，以获得LiDAR的姿态 $T^W_{ L,t}$ 。

随后，相机的姿态被导出为 $T^W_{ C,t}=T^W_{ L,t}.C^W_{ L,C}$ 。利用这个姿势，我们之前的公式从3D高斯图G中渲染RGB，深度和轮廓图像。接下来，我们通过比较渲染的RGB和深度图像与投影生成的捕获的RGB图像和深度图像之间的差异，进一步优化相机的姿态。由于图像中包含了尚未重构的部分，为了避免该部分的损失累积而影响位姿优化，我们按照splatam的方法，建立阈值 $θ s$ 。我们认为轮廓图像中超过这个阈值的区域已经被重建，因此，我们只计算这些区域内的损失。参考了splatam的策略。

我们的损失函数由颜色损失和深度损失组成，两者都利用L1范数。通过施加一个权重因子λc，我们将颜色损失和深度损失结合起来，并使用Adam优化器进行梯度下降，以确定当前帧的估计姿态。公式如下：
在这里插入图片描述

2.2 重定位

跟踪失败会严重影响三维高斯图的重建，为了解决这个问题，我们首先引入跟踪失败检测模块，然后通过重定位模块将不正确的姿态重置回正确的轨迹。

在跟踪失败检测中，我们评估每帧使用公式(8)计算的损失是否超过阈值 $θ f ai l$ 。当损耗值超过 $θ f ai l$ 时，MM-Gaussian系统将进入跟踪失效状态。在这种状态下，跟踪模块被认为无法继续输出正确的姿态，并停止接受新的数据。因此，地图扩展和地图更新过程也停止了。同时，重新定位模块被激活。
在这里插入图片描述
如上图所示，跟踪在第t帧失败。我们使用t - m帧作为恢复点来执行查找操作。通过求解PnP问题，成功估计了第t + i帧的姿态。

具体来说，在第t帧失败时，我们从之前的m帧中检索相机的姿势 $T^W_{ C,t-m}$ ，这被认为是正确的姿势。我们保持 $T^W_{ C,t-m}$ 的平移部分不变，并对旋转进行“look-around”操作，即均匀采样n次旋转，形成n个新姿态。同时渲染n个姿态对应的RGB、深度和silhouette图像。然后，对于跟踪失败后相机捕获的每一帧 $I_{t+i}$ ，我们使用SuperPoint进行特征提取，使用LightGlue进行当前帧与n张渲染的RGB图像之间的特征匹配。

我们在超过阈值 $θ_{feature}$ 的n幅图像中选择匹配点数量最多的一张作为候选图像。利用候选的姿态，我们通过公式(7)的逆将渲染的深度图投影回3D空间，然后基于特征的对应性，使用Perspective-n-Point (PnP)计算当前帧的姿态 $^W _{C, T +i}$ 。通过这个结果，我们再次渲染相应的RGB、深度和silhouette图像，并通过公式(8)评估其损失。如果损失低于阈值 $θ_{fail}$ ，则认为重新定位成功。追踪、地图扩展和地图更新模块将恢复。失败的第t帧和成功重新定位的第t+i帧之间的帧将被丢弃，以避免影响3D高斯j建图。

2.3 建图

1)地图扩展: 在跟踪阶段之后，我们得到了当前帧的估计姿态。基于此姿态，我们将当前帧的LiDAR点云转换为3D高斯点云，并将其添加到地图中进行扩展。具体来说，对于 $p^L_t$ 中传入的N个点，我们将它们转化为N个高斯点，并使用改进的LiDAR姿态将它们添加到地图中:
在这里插入图片描述
添加到三维高斯图G中的高斯点G的位置µ由p在 $P^W_t$ 中的对应位置决定。通过将点云投影到像素平面上，我们可以使用投影像素的颜色作为高斯函数的初始颜色。之后对高斯的其他属性进行赋值。

2)地图更新:我们保持一个持续增长的关键帧序列 $Q_{key}$ ，在一定数量的输入帧后添加一个新的帧到序列中。在建图阶段之前，我们从 $Q_{key}$ 中选择k−2帧与当前帧和该建图阶段最新的关键帧一起进行优化。为了选择与当前帧最相关的关键帧，我们将当前帧的点云转换成世界坐标系，然后投影到每个关键帧上。选择是基于投影到像素平面上的点的数量。

在建图阶段，我们的目标是更新三维高斯的属性，而不优化相机姿势。因此，我们设置了固定的迭代次数，每次从之前选择的k帧中随机选择一帧。根据所选帧估计的相机姿态，渲染RGB图像，然后根据输入图像计算损失函数。
由于我们已经将输入LiDAR点云转换成高斯数据并添加到地图中，因此我们不再在建图阶段的损失函数中包含深度损失。相反，我们添加了SSIM损失，并继续使用Adam优化器。

在这里插入图片描述

在优化过程中，一些无用的高斯函数可能变得透明，或者太大。因此，根据三维高斯溅射，我们在建图阶段结束时增加一个对高斯分布的剪枝步骤，去除这些无用的高斯分布。除此之外，为了更精细地表示物体表面的细节，我们采用了致密化过程，其中包括基于梯度复制高斯函数以生成新的高斯函数。(参考的是高斯原论文的策略)

2.4总体流程

整个系统以多模态数据为输入，即LiDAR的点云和相机的图像，最终输出一个大尺度的三维高斯图G，便于无界场景下的高质量图像渲染。具体来说，激光雷达和相机都以10Hz的频率捕获点云和图像。在时刻t，得到点云pt，图像It。利用在LiDAR和相机之间使用EdgeCalib预校准的外部参数C C L，将点云投影到图像平面上，形成稀疏深度图像DGT。

MM-Gaussian算法主要包括跟踪、重新定位、地图扩展和地图更新四个部分。在跟踪阶段，使用完善的点云配准来获得初始姿态估计，随后通过将相机图像与渲染图像进行比较来改进姿态估计，以提高姿态估计的精度。此外，为了防止跟踪失败对建图造成的灾难性后果，采用了重定位模块将错误位置重置到正确轨迹上，增强了MM-Gaussian处理各种场景的鲁棒性。在建图阶段，激光雷达的点云被处理成三维高斯点并合并到地图中。随后，使用维护的图像关键帧序列来优化地图中3D高斯点的属性，从而实现更好的渲染。
在这里插入图片描述