MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors

qq_39551801

已于 2025-01-02 10:28:49 修改

阅读量2k

点赞数 31

文章标签： 3d

于 2024-12-21 21:32:37 首次发布

本文链接：https://blog.csdn.net/qq_39551801/article/details/144635285

版权

MASt3R-SLAM: Real-Time Dense SLAM with 3D Reconstruction Priors

文章链接：https://arxiv.org/abs/2412.12392

Abstract

本文作者提出了一个从 MASt3R 自下而上设计的实时单目密集 SLAM 系统，这是一种双视图 3D 重建和匹配先验。配备了一种强大的先验，除了独特的相机中心之外，没有对固定或参数化相机模型做出任何假设，系统在野外视频序列上非常稳健。作者引入了用于点图匹配、相机跟踪和局部融合、图形构建和循环闭合以及二阶全局优化的有效方法。通过已知的校准，只需对系统进行简单修改，即可在各种基准测试中实现最先进的性能。总而言之，本文提出了一种即插即用的单目 SLAM 系统，能够在以 15 FPS 的速度运行时产生全局一致的姿势和密集的几何形状。

1. Introduction

视觉同步定位和地图构建（SLAM）是当今机器人和增强现实产品的基础构建块。通过精心设计集成的硬件和软件堆栈，现在可以实现稳健而准确的视觉 SLAM。然而，SLAM 尚未成为一种即插即用算法，因为它需要硬件专业知识和校准。即使对于没有额外传感的最小单摄像头设置（如 IMU），也不存在能够在野外可靠地提供准确姿势和一致密集地图的 SLAM 解决方案。实现如此可靠的密集 SLAM 系统将为空间智能开辟新的研究途径。

仅从 2D 图像执行密集 SLAM 需要对随时间变化的姿势和相机模型以及 3D 场景几何体进行推理。为了解决这种大维数的逆问题，已经提出了从手工制作到数据驱动的各种先验。单视图先验，例如作为单眼深度和法线，尝试从单个图像预测几何图形，但这些图像包含歧义，并且在视图之间缺乏一致性。虽然光流等多视图先验减少了模糊性，但解耦姿态和几何结构具有挑战性，因为像素运动取决于外部函数和相机模型。尽管这些根本原因可能因时间和不同的观察者而异，但 3D 场景在视图中保持不变。因此，从图像中求解姿态、相机模型和密集几何体所需的统一先验是在公共坐标系中的 3D 几何体空间上。

最近，由 DUSt3R [49] 及其后继者 MASt3R [20] 开创的双视图 3D 重建先验通过利用精选的 3D 数据集，在运动结构（SfM）中创造了范式转变。这些网络直接从公共坐标系中的两个图像输出点图，因此上述子问题是在联合框架中隐式求解。将来，这些先验将在具有显著失真的所有相机模型上进行训练。虽然 3D 先验可以接受更多视图，但 SfM 和 SLAM 利用空间稀疏性并避免冗余来实现大规模一致性。双视图架构将双视图几何结构镜像为 SfM 的构建块，这种模块化为后端的高效决策和强大的共识打开了大门。

在这项工作中，本文提出了第一个实时 SLAM 框架，该框架利用双视图 3D 重建先验作为跟踪、映射和重新定位的统一基础，如图 1 所示。虽然以前的工作在具有无序图像集合的离线设置中将这些先验应用于 SfM [10]，但 SLAM 以增量方式接收数据，并且必须保持实时操作。这需要对低延迟匹配、谨慎的地图维护和大规模优化的高效方法的新视角。此外，受 SLAM 中过滤和优化技术的启发，本文在前端对点图进行本地过滤，以便在后端实现大规模的全局优化。本文系统对每张图像的相机型号不做任何假设，除了具有所有光线都通过的唯一相机中心。这产生了一个实时密集的单目 SLAM 系统，能够使用通用的时变相机模型重建场景。给定校准，本文还展示了在轨迹精度和密集几何估计方面的最新性能。

总的来说，贡献是：

•第一个使用双视图 3D 重建的实时 SLAM 系统，之前的 MASt3R [20] 作为基础。

• 用于点图匹配、跟踪和局部融合、图形构建和循环闭合以及二阶全局优化的高效技术。

• 最先进的密集 SLAM 系统，能够处理通用的时变相机模型。

图 1.根据 Burghers 序列重建致密的单眼 SLAM 系统 [55]。使用左侧所示的 MASt3R 的双视图预测，即使没有已知的相机模型，本文所提系统也可以实时实现全局一致的姿势和几何形状。

2. Related Work

为了获得准确的姿态估计，稀疏单目 SLAM 专注于联合求解相机姿态和选定数量的无偏 3D 地标 [7]。利用优化的稀疏性 [18] 和仔细的图形构建 [25] 的算法进步实现了大规模场景上的实时姿态估计和稀疏重建。虽然稀疏单目 SLAM 在具有足够的特征和视差的情况下非常准确，但它缺乏密集的场景模型，这对于稳健跟踪和更明确的几何推理都很有用。

为了提高稳健性和提供交互性，早期的密集单目 SLAM 系统展示了姿势和密集深度与手工正则化的交替优化 [28]。由于这些系统仅限于受控设置，最近的工作试图将数据驱动的先验与后端优化相结合。在预测来自单个图像的几何量，例如深度 [11， 14， 30， 52] 和表面法线 [1， 50]，已经显示出重大进展，但它们在 SLAM 中的使用受到限制。从单个视图预测几何图形是模棱两可的，从而导致 3D 几何图形有偏差且不一致。因此，SLAM 文献侧重于以潜在空间 [2， 6]、子空间 [40]、局部基元 [23] 和分布 [8， 9] 的形式预测可能深度的假设空间的先验。虽然这些先验的灵活性可以实现更高的一致性，但跨多个视图的稳健对应是必不可少的。

多视图先验，如多视图立体（MVS） [19， 32， 54] 和光流 [42]，反而侧重于从两个或多个视图学习对应关系，作为获得几何学的手段。但是，两者都需要额外的信息：MVS 修复姿势以实现对应，而流是对运动和几何的纠缠观察，受前面提到的简并性的影响。DROIDSLAM [44] 将用于匹配的学习特征与每像素密集光束法调整框架结合到一个端到端框架中。这会产生一个强大的 SLAM 系统，其后端在本质上类似于稀疏 SLAM，因此缺乏明确的几何约束仍然会产生不一致的 3D 几何。

体积表示已经证明了在渲染过程中耦合几何参数时实现一致重建的潜力。各种 SLAM 系统在神经场 [24] 和高斯飞溅 [17] 中为单目 [22， 57] 和 RGB-D [15， 38， 51， 56] 相机采用了可微渲染。然而，与其他方法相比，这些方法的实时性能落后，并且需要深度、额外的 2D 先验或缓慢的相机运动来限制解决方案。用于从图像中重建一般场景的 3D 先验首先将 2D 特征融合成 3D 体素网格，然后解码为表面几何 [26， 39]。这些方法假定已知的融合姿势，因此不适合关节跟踪和映射，而体积表示需要大量内存和预定义的分辨率。

到目前为止提到的所有系统都假设已知的本征校准。当对场景几何结构或一组图像中不变的参数有严格的假设时[12]，经典的自动本征校准是可能的，但会遇到退化的配置和对噪声的敏感性。给定内在函数的初步估计，通过光束法平差进行细化可以提高在线精度 [16]，但这已经假设了一个参数模型和所有参数的充分初始化。最近，数据驱动的方法可以从一张或多张图像中预测内在函数[13,47]，但对于野外SLAM来说，准确性要么有限，要么在相机模型定义方面不灵活。

最近，DUSt3R 引入了一种新颖的双视图 3D 重建技术，可以输出密集的 3D 点云两个图像在公共坐标系中。与前面讨论的解决任务子问题的先例相比，DUSt3R 通过对对应关系、姿势、相机模型和密集几何结构进行隐式推理，提供了对双视图 3D 场景的直接伪测量。后继的 MASt3R [20] 预测了额外的每像素特征，以改善定位和 SfM 的像素匹配 [10]。但是，与所有先验一样，预测在 3D 几何中仍可能存在不一致和相关误差。因此，DUSt3R 和 MASt3R-SfM 需要大规模优化以实现全局一致性，但时间复杂度不能很好地随图像数量而扩展。Spann3R [48] 通过微调 DUSt3R 来直接将点图流预测到全局坐标系中，从而放弃了后端优化，但必须保持有限的标记内存，这可能会导致较大场景中的漂移。

在这项工作中，本文提出了一个围绕这些双视图 3D 重建先验构建的密集 SLAM 系统。本文只假设一个通用的中央相机模型，并提出了有效的点图匹配、跟踪和点图融合、循环闭合和全局优化的方法，以实现实时成对预测的大规模一致性。

3. Method

在图 3 中提供了该方法的概述，其中显示了主要组成部分：MASt3R 预测和点图匹配、跟踪和局部融合、循环闭合和全局优化。

图 3.MASt3R-SLAM 的系统图。通过从 MASt3R 预测点图并使用高效的迭代投影点图匹配查找像素匹配项，根据当前关键帧跟踪新图像。跟踪会估计当前姿势并执行局部点图融合。当新的关键帧被添加到后端时，通过使用编码的 MASt3R 特征查询检索数据库来选择循环闭合候选者。然后，MASt3R 对候选值进行解码，如果找到足够数量的匹配项，则将边添加到后端图中。大规模二阶优化可实现姿势和密集几何体的全局一致性。

3.1 前言

DUSt3R拍摄一对图像，并且输出点图及对应置信度。本文使用符号来表示相机j坐标系中表示的图像i的点图。在 MASt3R 中，增加了一个额外的头来预测 d 维特征，以匹配和对应置信度本文将定义为 MASt3R 的前向传递，它产生前面讨论的输出，在整个文本中，为简洁将直接使用 MASt3R 的输出。

虽然一些用于训练 MASt3R 的数据具有度量尺度，但作者发现尺度通常是预测之间不一致的一大来源。为了优化不同比例的预测，作者将所有姿势定义为 T ∈ Sim（3），并使用李代数和左加运算符更新姿势：

其中，尺度，遵循 [36， 43] 中的符号。

作者对相机模型的唯一假设是通用的中央相机 [34]，这意味着所有光线都穿过一个独特的相机中心。我们定义函数，它将点图标准化为单位范数的射线，以便每个点图定义自己的相机模型。这样就可以以统一的方式处理时变相机模型（如缩放）和失真。

3.2 点图匹配

通信是 SLAM 的基本组成部分，跟踪和映射都需要。在这种情况下，给定 MASt3R 的点图和特征，我们需要找到两张图像之间的像素匹配集，用表示。朴素暴力匹配具有二次复杂度，因为它是对所有可能的像素对进行全局搜索。为避免这种情况，DUSt3R 在 3D 点上使用 k-d 树；然而，并行化构造并非易事，如果点图预测中存在错误，则 3D 中的最近邻搜索将发现许多不准确的匹配项。在 MASt3R 中，从网络中预测额外的高维特征以实现更广泛的基线匹配，并提出了一种从粗到细的方案来处理全局搜索。但是，密集像素匹配的运行时间约为秒，并且稀疏匹配仍然比 k-d 树慢。作者并没有专注于全局搜索的有效方法，而是从局部搜索优化中寻找灵感。

与特征匹配相比，作者受到密集 SLAM 中常用的投射数据关联的启发。然而，这需要一个具有封闭式投影的参数化相机模型，而作者唯一的假设是每一帧都有一个唯一的相机中心。给定输出点图，作者可以用光线构造通用相机模型，受缺乏闭式投影的通用相机校准方法 [31， 34] 的启发，作者通过迭代优化参考系中的像素坐标 p，独立投影每个点，以最小化光线误差：

在图 2 中显示了一个直观的概述，并注意到最小化归一化向量之间的欧几里得距离相当于最小化两条归一化光线之间的角度 θ：

通过使用类似于 [34] 的非线性最小二乘形式，通过计算解析雅可比矩阵 J 并使用 Levenberg-Marquardt 迭代求解更新 δp：

这可以针对每个点单独完成，并且由于光线图像是平滑的，因此在 10 次迭代中会收敛几乎所有有效像素。在此过程结束时，我们现在有初始匹配项。当投影 p 没有初始估计时，例如在跟踪新关键帧或匹配循环闭合边缘时，所有像素都使用标识映射进行初始化。在跟踪过程中，由于我们总是有前一帧的匹配项，因此可以将其用作初始化，以进一步加快收敛速度。为了处理遮挡和异常值，作者还使 3D 空间中距离较大的匹配项无效。匹配在 GPU 上是大规模并行的，此外还可以利用 SLAM 的增量特性。

虽然这些像素使用几何结构提供了很好的匹配初始估计，但 MASt3R 表明，利用每像素特征可以大大提高姿势估计的下游性能。由于在上一步中进行了很好的初始化，因此通过在 Local Patch 窗口中将像素位置更新为 Maximum Feature Similarity 进行从粗到细的图像搜索。在自定义 CUDA 内核中实现了迭代投影和特征优化步骤，因为每个像素都可以并行化。对于跟踪，这只需要 2 毫秒，对于在图表中构建边缘，所有新添加的边缘只需要几毫秒，而无需对投影进行任何初始估计。请注意，我们的匹配不受姿态估计的影响，因为它们完全依赖于 MASt3R 输出，这对于投影数据关联来说是非典型的。

3.3 跟踪和点图融合

SLAM 的一个关键组成部分是针对地图对当前帧姿势的低延迟跟踪。作为一个基于关键帧的系统，我们估计当前帧和最后一个关键帧之间的相对变换。为了提高效率，作者只想使用网络的一次传递来估计转换。假设已经有了最后一个关键帧的点图估计，需要帧中的点来解析。可以通过来获得。解决姿势的一种简单方法是最小化 3D 点误差：

其中是 MASt3R-SfM 中建议的匹配置信度加权。为了稳健性，除了 Huber 范数，则应用每次匹配的权重：

虽然代替也可以与对齐，但由于它们是像素对齐的，因此不需要显式匹配，但我们发现与的显式匹配提高了较大基线场景的准确性。更重要的是，尽管 3D 点误差是合适的，但它很容易被点图预测中的误差所扭曲，因为深度预测不一致的情况相对频繁。由于我们最终将预测融合到一个平均所有预测的单个点图中，因此跟踪错误会降低关键帧的点图，该点图也将在后端使用。

通过再次利用在中央相机假设下可以将点图预测转换为光线，我们可以计算定向光线误差，该误差对不正确的深度预测不太敏感。为了计算这一点，简单地将方程（5）中的两个点归一化：

图 2.迭代射影匹配概述：给定 MASt3R 的两个点图预测，参考点图进行归一化，以提供平滑的像素到光线映射。对于来自点图的 3D 点 x 的投影 p0 的初始估计，将迭代更新像素以最小化查询的光线与目标光线之间的角度差 θ。在找到达到最小误差的像素后，得到了之间的像素对应关系。

这导致了与方程（3）中提到的和图 2 中所示的类似的角度误差，只是现在有许多已知的对应关系，并希望找到使当前帧中典型光线和相应预测光线之间的所有角度误差最小的姿态。由于角度误差是有界的，因此基于光线的误差对异常值具有鲁棒性 [29]。本文还包括一个误差项，该误差项在与相机中心的距离差上具有较小的权重。这可以防止系统在纯旋转情况下退化，但小权重避免了像点误差那样使姿态估计产生偏差。作者在迭代重新加权的最小二乘法（IRLS）框架中使用 Gauss-Newton 有效地求解姿态的更新。计算了关于相对位姿的扰动的射线和距离误差的解析雅可比行列式。将残差、雅可比矩阵和权重分别堆叠到矩阵 r、J 和 W 中。迭代求解线性系统并通过以下方式更新姿态：

由于每个点图都可能提供有价值的新信息，因此不仅通过过滤几何的估计值来利用它，还通过过滤相机模型本身来利用它，因为它是由光线定义的。在求解了相对位姿之后，可以使用变换并通过运行加权平均滤波器 [5， 27] 更新规范点图：

由于只有较小的基线帧，点图最初具有较大的误差和较低的置信度，但过滤能够合并来自多个视点的信息。我们尝试了更新规范点图的不同方法，发现加权平均最适合在过滤掉噪声的同时保持连贯性。与 MASt3R-SfM [10] 中的规范点图相比，作者以增量方式计算并需要转换点，因为的额外网络预测会减慢跟踪速度。过滤在 SLAM 中有着丰富的历史，并且可以利用所有帧的信息，而无需显式优化所有摄像机姿势并将来自解码器的所有预测点图存储在后端。

3.4 图形构造和循环闭合

跟踪时，如果有效匹配项的数量或中的唯一关键帧像素的数量低于阈值，则会添加新的关键帧。添加后，前一个关键帧的双向边将添加到边列表中。这将在时间上按顺序限制估计的姿势；但是，漂移仍然可能发生。为了闭合小循环和大循环，采用了 MASt3R-SfM [10] 使用的聚合选择性匹配内核（ASMK） [45， 46] 框架，用于从编码特征中检索图像。虽然这以前用于批处理设置，其中所有图像从一开始就可用，但作者将其修改为以增量方式工作。使用的编码特征查询数据库以获取前 K 图像。由于码本只有数万个质心，作者发现密集的 L2 距离计算足够快，可以量化特征。如果检索分数高于阈值，将这些对提供给 MASt3R 解码器，如果第 3.2 节确定的匹配数量高于阈值，则添加双向边沿。最后，通过将新关键帧的编码特征添加到倒排文件索引来更新检索数据库。

3.5 后端优化

鉴于当前对关键帧姿势的估计值和的规范点图，后端优化的目标是实现所有姿势和几何体的全局一致性。虽然以前的公式使用一阶优化并且需要在每次迭代后重新缩放 [10， 49]，但作者引入了一种高效的二阶优化方案，通过修复第一个 7-DoF Sim（3）姿势来处理问题的规范自由度。共同最小化图中所有边的光线误差：

其中给定 N 个关键帧，等式 (10) 形成并累积 14 × 14 个块到 7N × 7N Hessian 中。再次使用高斯-牛顿法（如等式 (8) 中所示）来解决这个问题，但由于系统不密集，因此使用稀疏的 Cholesky 分解。通过使用解析雅可比矩阵和并行缩减（均在 CUDA 中实现），Hessian 的构建变得高效。同样，添加了一个关于距离一致性的小误差项，以避免纯旋转情况下的退化。每个新关键帧最多执行 10 次高斯-牛顿迭代，优化在收敛时提前终止。二阶信息的使用大大加快了替代方案的全局优化，而作者高效的实现确保它不会成为整个系统的瓶颈。

3.6. 重新定位

如果系统因匹配数量不足而失去跟踪，则触发重新定位模式。对于新帧，将使用更严格的分数阈值查询检索数据库。一旦检索到的图像与当前帧有足够数量的匹配，它就会作为新的关键帧添加到图表中并恢复跟踪。

3.7. 已知校准

本文系统在没有已知相机校准的情况下工作，但如果有校准，可以通过两个简单的更改来利用它来提高精度。首先，在使用规范点图进行跟踪和映射优化之前，只查询深度维度，并将点图限制为沿已知相机模型定义的光线进行反向投影。其次，将优化中的残差更改为像素空间而不是光线空间。在后端，将中的像素与与之匹配的 3D 点的投影进行比较：

其中 Π 是使用给定相机模型到像素空间的投影函数。此外，为了保持一致性，额外的距离残差被转换为深度。

4.Result

在广泛的真实世界数据集上评估本文系统。对于定位，在单目 RGB-D [37]、7-Scenes [35]、ETH3D-SLAM [33] 和 EuRoC [3] 上评估单目 SLAM，全部在单目 RGB 设置下进行。对于几何评估，使用 EuRoC Vicon 房间序列，因为它提供 3D 结构扫描地面实况，以及 7-Scenes，因为它具有深度摄像头测量值。本文系统在配备 Intel Core i9 12900K 3.50GHz 和单个 NVIDIA GeForce RTX 4090 的台式机上运行。由于系统以大约 15 FPS 的速度运行，对数据集的每 2 帧进行子采样以模拟实时性能。请注意，作者使用 MASt3R 的全分辨率输出，它将最大尺寸调整为 512。

4.1. 相机姿态估计

对于所有数据集，绝对轨迹误差（ATE）的 RMSE 以米为单位。由于所有系统都是单目，因此执行缩放轨迹对齐。本文将未经已知校准的系统表示为 Ours*。

TUM RGB-D：在 TUM 数据集上，展示了利用校准信息时最先进的轨迹误差，如表 1 所示。许多之前表现最佳的算法，如 DROID-SLAM、DPVSLAM 和 GO-SLAM，都是建立在 DROID-SLAM 提出的基础匹配和端到端系统之上的。相比之下，本文提出了一个独特的系统，它采用现成的两视图几何先验，并表明它在实时运行时可以胜过所有其他系统。此外，本文所提的未校准系统明显优于基线，作者将其称为 DROID-SLAM*，它使用 GeoCalib [47] 在序列的第一张图像上校准内在函数，然后由 DROID-SLAM 使用。作者在不假设整个序列的相机模型固定的情况下实现了这一点，并展示了密集未校准 SLAM 的 3D 先验相对于解决子问题的先验的价值。本文所提的未校准的 SLAM 结果也与其他最近学习的技术（例如具有已知校准的 DPV-SLAM）的结果相当。

表 1.TUM RGB-D 上的绝对轨迹误差（ATE （m）） [37]

7-Scenes：作者使用与 NICER-SLAM 相同的序列进行评估，如表 2 所示。本文所提的校准系统优于 NICER-SLAM [57] 和 DROIDSLAM。此外，作者使用单个 3D 重建先验的实时未校准系统优于 NICERSLAM，后者在深度、正常和光流网络中使用多个先验并离线运行。

ETH3D-SLAM：由于难度较大，ETH3D-SLAM 仅针对 RGB-D 方法进行了评估。由于官方私人评估的 ATE 阈值对于单目方法来说过于严格，我们在训练序列上评估了几种最先进的单目系统并生成了 ATE 曲线。数据集包含具有快速相机运动的序列，因此，对于所有方法，我们不会对帧进行子采样。虽然其他方法可以有更精确的轨迹，但我们的方法在稳健性方面具有更长的尾部，从而产生最佳的 ATE 和曲线下面积 (AUC)。

EuRoC：作者在表 3 中报告了所有 11 个 EuRoC 序列的平均 ATE。对于未校准的情况，作者发现失真太严重，因为 MASt3R 尚未在此类相机模型上进行训练，因此作者对图像进行了去失真处理，但没有对其余流程进行校准。总体而言，本文所提的系统表现优于 DROID-SLAM，但它明确使用 10% 灰度图像增强了其训练。然而，0.041m ATE 仍然非常准确，从 [21] 中的比较来看，所有表现优异的方法都建立在 DROID-SLAM 的基础之上，而本文提出了一种使用 3D 重建先验的新方法。

表 3. 7-Scenes 和 EuRoC 的重建评估，所有指标均以米为单位

4.2. 密集几何评估

作者在 EuRoC Vicon 房间序列和 7-Scenes seq-01 上与 DROID-SLAM 和 Spann3R [48] 评估了几何结构。对于 EuRoC，参考点云和估计点云之间的对齐是通过将估计的轨迹与 Vicon 轨迹对齐来获得的。请注意，这种设置有利于 DROID-SLAM，它获得了较低的轨迹误差。对于 7 场景，使用数据集提供的姿势对深度图像进行反向投影，以创建参考点云。然后使用 ICP 将其与估计的点云对齐，因为未提供 RGB 和深度传感器之间的外部校准。

作者报告了 RMSE以验证准确度，准确度定义为每个估计点与其最近参考点之间的距离，以及完成度，即每个参考点与其最近估计点之间的距离。这两个指标都是以 0.5 米的最大距离阈值计算的，并在所有序列中取平均值。作者还报告了倒角距离，即两个指标的平均值。

表 3 总结了 7-Scenes 和 EuRoC 的几何评估。对于 7-Scenes，与 DROID-SLAM 相比，本文所提的校准和不校准方法以及 Spann3R 都实现了更准确的重建，突出了 3D 先验的优势。作者在两种不同的设置下运行 Spann3R。在一种设置下，每 20 张图像拍摄一个关键帧，在另一种设置下，每 2 张图像拍摄一个关键帧。两种设置中的差异表明了无需测试时间优化的方法在推广方面面临的挑战。本文所提的未经校准的方法在准确度和倒角距离方面表现最佳。这可以归因于 7-Scenes 提供的固有校准是默认的出厂校准。对于 EuRoC，Spann3R 表现不佳，因为序列不是以对象为中心的，因此被排除在外。如表 3 所示，尽管 DROID-SLAM 在 ATE 方面优于本文方法，但本文所提的方法在校准/未校准的情况下获得了更好的几何形状。DROID-SLAM 获得了更高的完成度，因为它估计了围绕参考点云的大量噪声点，但本文方法的准确度明显更高。值得注意的是，本文的未校准系统具有明显更大的 ATE，但在倒角距离方面仍然优于 DROID-SLAM。

4.3. 定性结果

图 1 显示了具有挑战性的 Burghers 序列的重建，该序列在镜面图上几乎没有可匹配的特征。作者在图 4 中展示了 TUM 的姿势估计和密集重建示例，在图 6 中展示了 EuRoC 的姿势估计和密集重建示例。此外，作者在图 7 中展示了连续关键帧之间极端缩放变化的示例。

图 4.重建和轨迹 TUM fr1/floor 序列。

图6. EuRoC Machine Hall 04 的重建。

图 7. 户外场景中两个连续关键帧显示的密集未校准 SLAM 的极端缩放变化。

4.4 消融实验

在表 4 中，未校准跟踪和后端优化的射线误差公式显著提高了使用 3D 点误差的性能，并减轻了不准确的点图预测的影响。在表 5 中，作者测试了更新规范点图的不同方法，并报告了 TUM、7-Scenes 和 EuRoC 的平均 ATE。选择最新或最新的点分别导致缺乏足够的基线来解析几何图形或产生漂移。给定校准，加权融合的性能与选择具有最高中值置信度的完整点图相当，但它在没有校准的情况下实现了最低的 ATE，并将 EuRoC 上的 ATE 提高了 1.3 厘米，这表明融合相机模型是显着的。作者在表 6 中比较了匹配技术。一般来说，作者的并行投影匹配与特征细化实现了最佳精度，并且运行时间明显更快。对所有像素执行 MASt3R 匹配大约需要 2 秒，而本文的匹配需要 2 毫秒，并使整个系统的 FPS 快近 40 倍。请参阅补充材料以了解系统的完整运行时分析。

5. 局限性和未来工作

虽然本文可以通过在前端过滤点图来估计准确的几何形状，但目前并没有在完整的全局优化中细化所有几何形状。虽然 DROIDSLAM 通过捆绑调整优化了每个像素的深度，但该框架允许不连贯的几何形状。一种可以使点图在 3D 中全局一致，同时保持原始 MASt3R 预测的连贯性的方法将是未来工作的一个有趣方向。由于 MASt3R 仅在具有针孔图像的图像上进行训练，因此其几何预测会随着失真的增加而降低。然而，在未来，模型将在各种相机模型上进行训练，并将与本文从不假设参数相机模型的框架兼容。此外，使用全分辨率解码器目前是一个瓶颈，尤其是对于低延迟跟踪和检查环路闭合候选者。提高网络吞吐量将有利于整个系统的效率。

6. 结论

本文提出了一个基于 MASt3R 的实时密集 SLAM 系统，该系统可以处理野外视频并实现最先进的性能。SLAM 的大部分最新进展都遵循 DROID-SLAM 的贡献，DROID-SLAM 训练一个端到端框架，该框架从流更新中解决姿势和几何问题。作者采取了不同的方法，围绕现成的几何先验构建了一个系统，该系统首次实现了可比较的姿态估计，同时还提供了一致的密集几何。