ECCV 2024 | DVLO：双向对齐！助力视觉/激光雷达里程计新突破

自动驾驶之心

于 2024-09-20 07:30:21 发布

阅读量482

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247628668&idx=5&sn=6d36f24d3ce81cbe41bd93e096b2c505&chksm=cf66b3fd9f4e9d50fcb2e7e16dda4e087c4c8faab56822eac3e75fedd5730bd0d134166841c7&scene=126&sessionid=0

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『SLAM』技术交流群

编辑 | 自动驾驶之心

摘要

视觉数据和激光雷达数据中的信息具有很好的互补性，这些信息来自于图像的精细纹理和点云的大量几何信息。然而，探索有效的视觉-激光雷达融合仍面临挑战，这主要是由于两种模态之间内在的数据结构不一致：图像像素是规则而密集的，但激光雷达点是无序而稀疏的。为解决这一问题，我们提出了一种具有双向结构对齐功能的局部到全局融合网络（DVLO）。为了获得局部融合特征，我们将点投影到图像平面上作为聚类中心，并对每个中心周围的图像像素进行聚类。图像像素被预先组织为伪点，用于图像到点的结构对齐。然后，我们通过圆柱投影将点云转换为伪图像（点到图像结构对齐），并在点云特征和局部融合特征之间进行自适应全局特征融合。与单模态和多模态方法相比，我们的方法在KITTI里程计和FlyingThings3D场景流数据集上取得了最先进的性能。
代码发布于 https://github.com/IRMVLab/DVLO。
关键词 视觉-激光雷达里程计 - 多模态融合 - 局部到全局融合 - 双向结构对齐

1.引言

视觉/激光雷达里程计是计算机视觉和机器人学领域中的一项基本任务，用于估计两幅连续图像或点云之间的相对位姿变换。它被广泛应用于自动驾驶、SLAM、导航等领域。最近，多模态里程计越来越受到关注，因为它可以利用不同模态的互补信息，并对非对称传感器退化具有很强的鲁棒性。
以往的视觉激光雷达里程计工作可分为两类：传统方法和基于学习的方法。传统方法通过由特征提取、帧到帧特征匹配、运动估计和优化组成的流水线完成里程计任务。然而，由于提取的特征质量差、分辨率低，这些方法存在姿态估计不准确的问题。随着深度学习的发展，一些方法尝试利用基于 CNN 的方法进行视觉-激光雷达融合和姿态估计。然而，特征融合的感受野受到 CNN 的步长和核大小的限制。为了扩大多模态融合的感受野，最近提出了基于注意力的方法，利用交叉注意力机制进行多模态融合。基于注意力的方法可以在全局范围内融合多模态特征，并通过更大的感受野建立跨帧关联，因为它们具有长程依赖性。然而，由于二次计算复杂性，基于注意力的方法通常需要较大的计算消耗和较长的推理时间，这对实时应用提出了挑战。此外，以往基于学习的方法大多采用图 1 a) 所示的唯一特征级融合策略，无法捕捉细粒度像素到点的对应关系。最近，一些网络设计了点到图像的投影和局部特征聚合，如图 1 b)所示，但其性能仍然受到稀疏激光雷达点和密集相机像素之间内在数据结构错位的限制。为了解决这些问题，我们在图 1 c) 中提出了一种具有双向结构对齐功能的新型局部到全局融合网络 (DVLO)。我们的融合模块由两部分组成：1）受文献启发，首先将图像视为一组伪点，与激光雷达点进行细粒度局部融合（图像到点的结构对齐）。2) 点云也通过圆柱投影转换为伪图像，用于全局自适应融合（点到图像结构对齐）。具体来说，我们设计了一种新颖的基于聚类的局部融合模块（Local Fuser）来执行局部精细特征融合。我们首先根据激光雷达点的坐标校准矩阵将其投影到图像平面上，从而找到对应的图像像素点作为聚类中心。然后，在每个聚类中心的一定范围内，根据伪点特征与聚类中心的相似性，动态聚合伪点特征，生成局部融合特征。在全局融合模块中，我们将点云投影到圆柱面上以获得伪图像。然后，利用自适应融合机制将上述局部融合图像特征和点云（伪图像）特征进行全局融合。值得注意的是，我们的融合模块是分层利用图像和点之间的多尺度特征图的。局部融合模块可以提供更精细的点到像素的对应信息，而全局融合则具有更大的感受野，可以实现更多的全局信息交互。

图 1：图像和点云的不同融合策略。之前的大多数研究都只进行全局融合 [53] 或局部融合。我们的 DVLO 设计了一种局部到全局的融合策略，既能促进全局信息的交互，又能保留局部的细粒度信息。此外，我们还设计了双向结构对齐，以最大限度地提高模态间的互补性。

总体而言，我们的贡献如下：1.我们提出了一种具有双向结构对齐功能的局部到全局融合里程测量网络。我们将图像像素视为一组伪点进行聚类，以便与激光雷达点进行局部融合。点云也通过圆柱投影转换为伪图像，用于全局自适应融合。2. 设计了一个纯粹基于聚类的融合模块，以获得细粒度的局部融合特征。据我们所知，我们的方法是首次基于深度聚类的多模态融合尝试，是 CNN 和Transformer之外的另一种高效融合策略。在 KITTI 里程计数据集上进行的大量实验表明，我们的方法在大多数序列上都优于最近所有的深度激光雷达、视觉和视觉激光雷达融合里程计方法。此外，我们的融合策略还能很好地应用于其他多模态任务，如场景流估计，甚至超过了最近的 SOTA 方法 CamLiRAFT。

2.相关工作

深度视觉里程计。最近，基于学习的方法在视觉里程计领域表现出令人印象深刻的性能。开创性的工作使用深度神经网络对单个图像的速度和方向进行里程估算。PoseNet最初采用卷积神经网络（CNN）从输入图像中提取特征，然后估计位姿。DeepVO 采用深度递归神经网络捕捉序列的时间动态和相互依存信息，从而促进对自我运动的估计。Li 等人利用基于预先训练的视觉-激光雷达里程测量的知识提炼技术作为教师，指导视觉里程测量的训练。Deng等人提出了一种具有地图预测和动态消除功能的长期视觉 SLAM 系统。NeRF-VO [40] 通过训练带有体积渲染的辐射场，优化一组关键帧位姿和底层密集几何图形，从而提高了场景表示的几何精度。
深度激光雷达里程计。与视觉里程计相比，深度激光雷达里程计仍是一项具有挑战性的任务，因为原始激光雷达点的数量庞大、不规则且稀疏。Nicolai 等人首次将深度学习技术引入激光雷达里程计。他们将三维激光雷达点投影到二维平面上以获得二维深度图像，然后采用二维学习方法进行位姿估计。DeepPCO将点云投影到全景深度图像上，并应用两个子网络分别估计平移和旋转。LO-Net也是通过投影将点转换为二维格式，并利用每个三维点的法线和动态遮罩来进一步提高性能。PWCLO为激光雷达里程计任务引入了 PWC 结构，通过迭代精细化模块分层精细化估计的位姿。EfficientLO提出了一种投影感知算子，用于提高激光雷达里程计的效率。TransLO设计了一种基于窗口的屏蔽点Transformer，以增强全局特征嵌入并去除异常值。DELO引入了激光雷达描述符和预测不确定性的部分优化传输，以实现稳健的位姿估计。NeRF-LOAM将神经辐射场应用于激光雷达里程计系统，在各种环境中显示出卓越的泛化能力。
视觉激光雷达里程计。最近，人们越来越关注视觉激光雷达里程计，因为它同时利用了二维纹理和三维几何特征。现有的视觉激光雷达里程计可分为两类：传统方法和基于学习的方法。在传统方法中，V-LOAM利用视觉里程计中的高频估计位姿作为低频激光雷达里程计的运动先验，从而实现精细的运动估计。LIMO利用从激光雷达点获得的深度信息来减轻单目视觉里程计中固有的尺度不确定性。PL-LOAM提供了一种纯视觉运动跟踪方法和一种新型比例校正算法。DV-LOAM是一个 SLAM 框架，包括一个两阶段直接视觉里程测量模块、一个考虑动态物体的激光雷达映射模块以及一个并行全局和局部搜索闭环检测模块。SDV-LOAM将半直接视觉里程计与自适应扫描-映射激光雷达里程计相结合，以解决 3D-2D 深度相关性的难题。在基于学习的方法方面，MVL-SLAM采用了 RCNN 网络架构，将三维激光雷达点的 RGB 图像和多通道深度图像融合在一起。LIP-Loc提出了一种用于跨模态定位的预训练策略，它利用对比学习来联合训练图像和点编码器。

图 2：我们提出的 DVLO 流程图。我们提出了一种新颖的局部到全局（LoGo）融合模块，它由基于聚类的局部融合器和自适应全局融合器组成。位姿最初根据最粗糙融合特征的成本量进行回归，然后根据较浅层的融合特征进行迭代改进。

3.方法

3.1总体结构

图 3：我们设计的局部到全局（LoGo）融合模块。我们根据坐标系变换矩阵将点投影到图像平面上作为聚类中心，并将图像转换成一组伪点。然后，我们根据伪点与每个聚类中心的相似性，对伪点特征进行局部聚合。

3.2层次特征提取

点特征提取。由于原始点云的不规则性和稀疏性，我们首先将其投影到一个圆柱面[30, 54]上，以有序地组织点。其对应的二维位置为：

其中，x、y、z 是点云的原始三维坐标，u、v 是投影伪图像上相应的二维像素位置。∆θ 和 ∆ϕ 分别是激光雷达传感器的水平和垂直分辨率。为了充分利用原始三维点的几何信息，我们用相应的原始三维坐标填充每个投影的二维位置。在这种情况下，不仅可以将激光雷达点转换为伪图像结构[26]，以便在第 3.4 节中与图像进行更好的对齐和全局特征融合，而且还可以保留原始的三维几何信息，以便进行有效的特征提取。然后，将图 2 中大小为 HP × WP × 3 的伪图像输入分层特征提取模块，提取多层次点特征 FP∈ RHP ×WP ×D，其中 D 为伪图像特征的通道数。
图像特征提取。给定摄像机图像 I∈RH×W ×3，我们利用中基于卷积的特征金字塔提取图像特征 FI∈RHI×WI×C 其中，HI、WI 是特征图的高度和宽度。C 是图像特征的通道数。

3.3 本地融合器模块

受上下文聚类的启发，我们提出了一种基于聚类的通用视觉主干，将图像视为一组点，并对其进行了扩展，提出了一种新颖的基于聚类的特征融合模块（本地融合器），无需任何 CNN 或Transformer。如图 3 所示，该模块可以将图像中更精细的二维纹理和每个聚类中点的几何特征进行局部融合。我们基于聚类的方法还保持了很高的效率，总推理时间仅为基于注意力的方法的一半，如表 7 所示。

3.4 全局融合模块

3.5位姿迭代估计

其中，姿态残差 ∆ql 和 ∆tl 可根据公式 (9) 和公式 (10) 在最粗糙层中通过类似过程获得。

3.6 损失函数

表 1：在 KITTI 里程计数据集上与不同里程计网络的比较。trel 和 rrel 分别指长度为 100、200、...、800 米的 00-10 个子序列上的平均序列平移 RMSE（%）和平均序列旋转 RMSE（◦/100 米）。最佳结果以粗体表示，次佳结果以下划线表示。∗ 表示模型是在 00-08 序列上训练的。

4 实验

4.1 KITTI 里程计数据集

我们在 KITTI里程计数据集上对 DVLO 进行了评估。该数据集由 22 个序列的激光雷达点云及其相应的立体图像组成。在本文中，我们仅使用单目左相机图像与激光雷达传感器进行融合。由于只有序列 00-10 才有地面真实位姿（轨迹），因此我们使用这些序列进行训练和测试。
表 2：在 KITTI 00-10 序列上与传统视觉-激光雷达里程计的比较。我们的 DVLO 在 00-06 序列上进行了训练。每个序列的最佳结果以粗体表示，次佳结果以下划线表示。

表 3：在 KITTI 09-10 序列上与基于学习的多模态里程计的比较。我们的 DVLO 在 00-06 序列上进行了训练，而其他模型则在 00-08 序列上进行了训练。最佳结果以粗体表示，次佳结果以下划线表示

4.2 实现细节

数据预处理。我们直接输入所有激光雷达点，而不进行下采样。根据激光雷达传感器的测距范围，我们将投影的伪图像大小设置为 64 × 1800。由于摄像头和激光雷达之间存在较大的空间范围差异，我们设计了一个融合掩码，以指示哪些点可以与图像融合。
参数。实验在英伟达 RTX 4090 GPU 和 PyTorch 1.10.1 上进行。我们使用 Adam 优化器，β1 = 0.9，β2 = 0.999。初始学习率设为 0.001，每 200000 步指数衰减一次，直到 0.00001。四层的 αl 分别为 1.6、0.8、0.4 和 0.2。可学习参数 kx 和 kq 的初始值分别为 0.0 和 -2.5。
评估指标。我们按照 PWCLO [55] 的协议，用两个指标来评估我们的方法：(1) 平均序列平移 RMSE (%)。(2) 平均序列旋转均方根误差（◦/100 米）

4.3 定量结果

与视觉/激光雷达里程计比较。我们将我们的方法与一些具有代表性的视觉里程计（VO）或激光雷达里程计（LO）网络进行综合比较。按照文献[55]中的设置，我们在 00-06 序列上训练我们的模型。表 1 列出了 KITTI 数据集的定量结果。表 1 显示，我们的 DVLO 在大多数序列上都优于所有这些作品。与 DFVO [65] 和 Cho 等人 [6] 等深度视觉里程计相比，我们的方法在序列 07-10 上的平均误差 trel 和 rrel 分别下降了 63.4% 和 43.8%。值得注意的是，尽管这些 VO 方法大多是在较大的数据（00-08）上进行训练的，但我们的方法仍然远远优于它们。与深度激光雷达里程计相比，我们的 DVLO 甚至在大多数序列上都优于最近的 SOTA 方法 EfficientLO [54]。与 EfficientLO 相比，我们的方法具有竞争力的 0.41 ◦/100m 旋转误差。此外，在测试序列上，我们的平均平移误差 trel 与他们相比下降了 4.9%。实验结果证明了我们的视觉-激光雷达融合设计的有效性和巨大潜力。
表 4：不同多模态里程计在 KITTI 里程计数据集序列 07-10 上的平均推理时间。

图 4：我们估计的位姿轨迹。该图显示了我们网络的二维和三维轨迹，以及 KITTI 数据集上的地面真实轨迹。

与传统多模态里程计的比较。我们在整个 KITTI 序列（00-10）上比较了我们的方法和以前的传统多模态里程计的性能。结果如表 2 所示。表 2 显示，在大多数序列上，我们的 DVLO 都优于所有这些作品。与 PL-LOAM [16]相比，我们的方法在序列 00-10 上的平均平移误差 trel 下降了 28.7%。
与基于学习的多模态里程计比较。由于大多数深度多模态融合里程计都是在 00-08 序列上进行训练，然后在 09-10 序列上进行测试，因此我们也比较了我们的 DVLO 和其他基于学习的多模态里程计在 09-10 序列上的性能。结果见表 1 和表 3。值得注意的是，尽管我们的模型只在 00-06 序列上进行了训练，但在大多数序列上，我们的方法仍然优于 H-VLO，我们的方法的 trel 和 rrel 分别降低了 47.0% 和 2.3%，这证明了我们提出的融合策略的优越性。

图 5：LOAM 和我们在有地面真实的 KITTI 序列 07 上的轨迹结果。无论是无映射还是有映射，我们的性能都优于 LOAM。

图 6：我们设计的基于局部聚类的融合机制在某个聚类内的可视化效果。红点表示聚类中心的二维位置。黄色区域是每个中心周围的聚类像素。

4.4 推理时间分析

效率是实时 SLAM 系统中另一个极其重要的因素。如表 4 所示，我们将 DVLO 的运行时间与其他多模态里程计方法进行了比较。4 所示，我们将 DVLO 的运行时间与其他多模态里程计方法进行了比较。由于 KITTI 数据集中的激光雷达点是以 10Hz 的频率采集的，以往的多模态方法很少能满足实时应用要求（低于 100 毫秒）。而我们的方法推理时间仅为 98.5 毫秒，具有实时应用的潜力。

4.5 可视化结果

在本节中，我们将根据图 4 中的估计位姿对二维和三维轨迹进行可视化。从图中可以看出，我们的里程计可以很好地跟踪地面真实的轨迹。我们还进行了实验，比较了经典方法 LOAM和我们的轨迹精度和估计误差。可视化结果如图 5 所示。尽管我们设计的里程计只是不带映射的 SLAM 系统的前端，但我们的方法比带映射的 LOAM 方法实现了更好的定位性能。
表 5：与之前在 FlyingThings3D 子集的 "val "分割上进行的场景流估算工作的比较。"RGB "和 "XYZ "分别表示图像和点云。最佳结果以粗体显示。

图 7：估计场景流的可视化。蓝色点为源点，绿色和红色点分别表示正确和错误的估计目标点。

4.6 场景流估计任务的泛化性

值得注意的是，我们的设计可以作为通用的融合模块，很好地泛化到其他任务。在此，我们将融合模块扩展到场景流估计任务。如表 5 所示，在 FlyingThings3D 数据集上，我们的方法在二维和三维指标上都超过了最近所有的 SOTA 多模态场景流网络。我们的方法甚至一直优于专门为多模态场景流任务设计的 CamLiRAFT。实验结果证明了我们的方法具有很强的通用性和普遍应用能力。我们还在图 7 中直观地展示了估算出的流量。

4.7 消融研究

在本节中，我们将进行广泛的消融研究，以评估我们所设计组件的重要性。
不使用局部融合器。我们从网络中移除局部融合器模块，并使用全局融合器模块直接融合图像和点特征。
表 6：局部-全局融合网络中局部融合器（LoF）和全局融合器（GoF）的有效性。每个序列的最佳结果以粗体显示。

表 7：不同局部融合策略的消融研究。与基于注意力的局部融合策略相比，我们基于聚类的局部融合策略能以一半的推理时间达到最高的准确率。准确率和效率方面的最佳结果以粗体显示。

表 6 中的结果表明，如果没有局部融合器，我们模型的性能会明显下降。这说明了局部融合器模块的重要性，因为局部点到像素的对应关系可以融合来自不同模态的更精细的特征。
无全局融合器。我们去掉了全局融合模块，直接使用局部融合特征进行姿态估计。表 6 中的结果表明，局部融合器模块有限的感受野无法实现充分的全局信息交互，这导致 trel 和 rrel 分别高出约 13.4% 和 14.6%。全局融合器的全局建模能力有助于识别对姿态回归有害的异常值。
局部融合策略。我们比较了不同局部融合策略的性能。表 7 中的结果显示，我们基于聚类的局部融合策略在准确性上优于基于卷积的策略和基于注意力的策略。此外，基于聚类的融合效率也令人满意，其总推理时间略高于基于卷积的融合方法，是基于注意力的融合方法的一半。

5 结论

本文针对视觉-激光雷达里程计提出了一种具有双向结构对齐功能的新型局部-全局融合网络。设计了一个基于聚类的局部融合模块，以提供细粒度的多模态特征交换。此外，还设计了一个自适应全局融合模块，以实现全局信息交互。综合实验表明，我们的 DVLO 在精度和效率方面都达到了最先进的水平。我们的融合模块还可以作为一种通用的融合策略，很好地推广到多模态场景流估算任务中。我们将在未来的工作中对更多的多模态任务进行推广实验。

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频