经典文献阅读之--High Definition Map Mapping and Update...(高精度地图的构建与更新：概述与未来发展方向)_high definition map mapping and update: ageneral o-CSDN博客

本文链接：https://blog.csdn.net/lovely_yoshino/article/details/142796557

0. 简介

随着自动驾驶汽车（AVs）的快速发展，对环境感知技术的需求日益增加。其中，高精度地图（HD Mapping）在帮助车辆实现定位和路径规划等基本任务中扮演了越来越重要的角色。尽管越来越多的研究力量已投入到高精度地图的开发中，但对整体高精度地图构建和更新框架的全面概述仍然缺乏。High Definition Map Mapping and Update: A General Overview and Future Directions介绍了创建高精度地图及其维护所涉及的算法的发展和现状。作为本研究的一部分，主要的数据预处理方法，包括将原始数据处理为可用于地图构建和更新的信息、语义分割和定位等，也进行了简要回顾。此外，地图的分类、本体论和质量评估得到了广泛讨论，地图数据的一般表示方法也被呈现，同时涵盖了从SLAM到基于transformer学习的方法的映射算法。高精度地图更新算法的发展，包括变化检测和更新方法，也得到了介绍。最后，作者讨论了高精度地图构建和更新技术的未来发展可能性及其面临的挑战。这里我们也借用这个文章来回顾并梳理后面有可能的方向。以及本人以及大家后续的职业发展

1. 主要贡献

有一项关于自动驾驶高精度地图的调查已由[13]发布，文中介绍了导航历史的全面回顾，这最终促成了高精度地图的发展，重点关注高精度地图的结构、功能和标准化。此外，他们还提供了基于高精度地图的车辆定位分析。在本综述中，我们关注于高精度地图制作及其维护所需模块的完整生命周期阶段，同时也为读者提供了从数据预处理模块、地图构建模块到地图更新模块的映射和更新过程的充分理解。该过程主要包含三个步骤：数据收集及其相应处理、地图创建或映射过程，以及地图维护或更新。我们工作的主要贡献可以总结为以下四点：

对高精度地图**四步生命周期（数据获取、数据处理、映射和更新）**中所包含过程的有序调查。
介绍了数据预处理中的主要算法的最新进展，特别是语义分割和定位方法。
全面研究了高精度地图映射（SLAM和众包）和高精度地图更新（如变化检测和众包更新方法）的最新趋势。
列出了剩余挑战和未来方向，这对自动驾驶中高精度地图的发展具有重要意义。

本文的其余部分组织如下：第二节简要介绍高精度地图的分类、本体论、地图表示及其要求。第三,四节讨论了涉及获取步骤的数据预处理模块。第五节讨论了与自动驾驶相关的SLAM和众包方法的一般映射方法。第六节概述了高精度地图更新，重点强调变化检测研究和众包更新。第七节探讨了可以进一步研究的挑战。

2. 高精度地图简介

2.1 高精度地图的分类与本体论

高精度地图的核心理念源于在自主驾驶模式下尽可能准确地定位车辆的必要性，以确保安全。早期的数字地图无法满足这一要求，因为其仅能达到车道级别的精度[16]。尽管车辆定位技术取得了显著进展，但在没有准确地图作为参考的情况下，其精度很快就达到了可实现的极限。高精度地图的功能明确地可以归结为提供详细的数字地图信息，以支持三级及以上自动驾驶车辆的应用。

高精度地图通常包含多个层次，每一层代表环境的不同方面。为应对驾驶环境的复杂性，衍生出多个标准，如：OpenDrive [17]、NDS [18]、ADASIS [19]、局部动态地图（LDM）[20]以及清华大学的标准[21]。OpenDrive主要包含两个地图内容：坐标系统和道路网络[17]。道路几何的坐标系统统一到地面平面，地图元素以距离道路中心线轴的方式表示。在道路网络中，存储的信息包括参考线、车道和线的属性、三维几何信息、高程剖面、车道边界信息以及停车场和铁路轨道等其他信息。这些信息也可以用于路径规划和地图监控等目的[22]。

在这里插入图片描述

图2：根据局部动态地图（LDM）定义的高精度地图层次示意图。该图基于文献[23]中的描述进行了重新绘制和修改

NDS可以分为多个信息层次。一些基本信息包括车道、定位地标、障碍物和路线[18]。与之前的标准类似，车道信息通过一些基本属性表示，如车道几何、车道边界、车道组和车道关系。车道几何由样条曲线和高程轮廓表示，而车道组则表示车道组网络。定位地标通过标志、杆、墙、交通信号灯等多种形式表示。这些信息以矢量化的方式存储，例如样条曲线、多线段和高度轮廓。易变数据，如路线信息，则通过交通状况、速度限制和道路标志来表示。

ADASIS旨在为高级驾驶辅助系统（ADAS）应用而设计，强调服务器与车辆之间的数据传输。提供的地图信息与其他地图标准相似，包括道路信息、地图元素和道路拓扑[19]。源自欧洲标准化的局部动态地图（LDM）[20]，汽车边缘计算联盟（AECC）[23]将高清地图模型化为多个动态信息层次，具体描述如下：

高度动态层：该层包括在几秒钟或更短时间内变化的信息，如车辆、卡车、公交车、摩托车、自行车和行人的位置和状态信息。
瞬态动态层：该层包括可能在几分钟内发生变化的信息，如倒下的树干、非法停车的车辆、局部天气的突然变化、龙卷风和垃圾。
瞬态静态层：该层包括可能在数小时内发生变化的信息，如道路施工、交通事故、车道封闭和故障车辆的位置和状态信息。
永久静态层：该层包括在日常间隔或更长时间内变化的信息，如车道、交通信号、交通规则和道路拓扑的三维几何结构。该层通常也被称为静态地图。

在这里插入图片描述

图3：七层自适应地图架构用于自动驾驶的示意图，V2X：车与万物的连接。该图来自于[21]的研究。

清华标准专注于通过提供与感知、定位和决策相关的信息来应用于自动驾驶[21]。清华地图标准可分为七个层次：道路层、交通信息层、道路车道连接层、车道层、地图特征层、动态对象容器层和智能决策支持层。地图数据的目标是直接在大型车道级道路网络上实现最优路径规划。地图的有效性在文献[24]中得以体现，其中智能支持层被用作协同感知的信息容器。

本体论方法用于定义共享概念化，作为一种正式而明确的规范，可以通过描述环境的多个方面（包括语义、时间和空间数据）来应用于高清地图。高清地图的语义部分可以被视为高清地图的命名约定，因为它提供了自动驾驶所需的所有信息，包括位置、类别和类型。基于本体论方法，[25]提出了一种知识架构层，根据各种地图数据区分低层次和高层次本体，以建模道路环境。因此，每种环境术语的比较质量方面也可以定量和定性地设定。

2.2 高清地图的要求与评估

一般而言，行业内人士将高清地图的准确性要求定义为10-20厘米[13]。然而，据作者所知，国际社会整体上从未在官方文件中起草过此类地图的具体要求。普遍共识仍然是，高清地图的准确性需要得到维护。[26]明确了使用高清地图进行准确地图定位所需满足的重要因素，例如地图元素位置准确性、特征精度稀释（FDOP，表示地图空间中特征的分布）、布局相似性和表示质量。在这些因素中，布局相似性相关性最高，其次是表示质量、位置准确性和FDOP。[27]制定了测量高清地图质量的指南，包括分类和用于确定质量的指标，如一致性、准确性和完整性，如表I所示。

表 I：根据[27]的指南，地图环境方面的质量维度

质量名称	质量指标
语义数据	命名	名称准确性
	分类类型	类别数量
	分类准确性	%
	语义一致性	是/否
	语义完整性	%
时间数据	时间准确性	%
	时间频率	s（及相关子单位）
	时间一致性	是/否
空间数据	空间准确性	m（及相关子单位）
	空间覆盖	m²（及相关子单位）
	空间精度	m（及相关子单位）
	空间分辨率	point/m³

时间（Temporal）指的是高清地图（HD map）创建或更新的时间。与这一方面相关的指标包括准确性、频率和一致性。最后，高清地图中最重要的部分是空间数据，包括位置或地点指标，如准确性、覆盖范围、精度和分辨率。对每个质量维度的解释感兴趣的读者可以参考文献[28]，该文献清晰地描述了每个质量维度的含义。最近，文献[29]根据车辆几何形状细化了静态和动态模型对高清地图的最低要求准确性，在静态情况下的基线模型中，所需的准确性为32厘米。2022年，文献[30]发表了一篇论文，开启了高清地图在线制图发展的趋势，成为评估高清地图生成结果的先锋，为学习方法之间的比较奠定了基础。他们提出了语义和实例指标来评估高清地图映射算法的性能。文献[31]提出了一种栅格化评估指标，用于检测基于矢量的高清地图的偏差。他们根据各种几何形状定制了栅格化模型，这些几何形状有效地适用于广泛的地图元素。

2.3 数据采集

高清地图的准确性归功于其数据采集过程中使用的先进设备。如图4所示，最先进的方法涉及部署这些移动测绘车辆进行数据收集。这些车辆通常配备高端测绘传感器，包括GNSS-RTK、惯性测量单元（IMU）、激光雷达（LiDAR）、360度摄像头以及长距离和毫米波雷达。

在这里插入图片描述

图4：大型测绘公司的移动测绘车辆：（a）谷歌。（b）必应。（c）TomTom。（d）Here。

大多数测绘公司，包括HERE，计划通过测绘车辆制作高度自动化驾驶（HAD）地图，采用这种策略来解决高清地图的测绘问题。其他公司，如Lyft Lvl 5，已经从20个自主车辆车队收集了1000小时的数据，涵盖了26000公里的郊区路线场景[32]。如此庞大的数据量通常在服务器上离线计算并存储在云端，使云服务能够存储和共享测绘信息。尽管这种数据收集方法是最佳选择，但它在提供如此庞大的昂贵测绘车辆车队所需的资源方面存在实际问题，这在工业上构成了挑战。为了解决这一问题，研究人员正在探索众包数据采集的潜力，其中一辆配备基本传感器的“普通”智能车辆负责数据收集。参考文献[33]因首次通过车辆GPS轨迹执行众包高清地图测绘而备受关注。如今，众包方法已成为这一研究方向的热门话题[34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45]。文献[46, 47]提出了一种基于信任的众包车辆招募框架，他们是首批考虑这一领域问题的研究者之一。他们还在下一轮研究中探讨了基于学习的招募系统[48]。基于众包车辆的轨迹，他们分配奖励。Cao等人[49]探讨了众包车辆的选择标准，将其定义为工人。他们将问题建模为经典的多臂老虎机（MAB）过程，旨在实现最高质量的测绘结果。提出了工人的属性，如轨迹、众包预算（成本）、边际效用（观察到的地图元素总数）和平台效用（可用小时数）。除了完全依赖车辆收集测绘数据外，一些研究人员还使用路边传感器，如摄像头和激光雷达[50]，进行高清地图的创建和更新数据收集。总之，自动驾驶中高清地图的数据收集挑战在于平衡覆盖范围、更新频率和数据可靠性。集中式数据收集提供了广泛的覆盖，但往往在频繁更新方面面临困难。另一方面，众包数据采集提供了快速和频繁的地图更新，这是动态驾驶环境中的关键因素。然而，这种方法的可靠性是一个主要问题，主要由于车载传感器的准确性差异。不同数据集之间不一致的数据采集时间和呈现方式进一步复杂化了确定准确和及时更新的任务。在自动驾驶系统中有效使用高清地图的关键在于数据可靠性、更新频率和覆盖范围之间的复杂平衡，这创造了一种新的问题范式，考虑到能够平衡这种方法缺点的招募过程。

3. 数据预处理模块

本节介绍了用于制作和维护高清地图的数据预处理算法，特别是语义分割和定位任务。针对车辆的原始数据，这一步骤旨在将数据转化为所需的信息，同时保持计算的轻量性。因此，开发能够在实时应用中表现出色且具备鲁棒性的算法是必要的。该过程的结果随后将在映射模块和更新模块中进行处理，如图1所示。本节将简要介绍每个任务的发展、趋势以及最先进的方法。

在这里插入图片描述

图 5. 图像分割网络的架构：(a) 膨胀（Dilation）架构。(b) 编码器-解码器（Encoder-Decoder）架构。© 多分支（Multi-branch）架构

3.1 语义分割

在智能车辆的映射任务中，始终希望拥有一个鲁棒且准确的模块，以便在二维和三维点云空间中检测物体。这些任务由多种传感器负责，其中包括激光雷达（LIDAR）、摄像头和雷达。下面，我们将简要说明每种传感器算法的发展，以及支持高清地图和更新进展的多传感器融合。在本节中，LIDAR和雷达部分也将简要描述多传感器融合，其中LIDAR-视觉和雷达-视觉在这些领域的语义分割发展中至关重要。

3.1.1 摄像头

物体检测任务因卷积神经网络（CNN）的发展而变得广泛流行，这被视为机器学习领域的一项重大突破[52]。这一技术迅速适应了智能车辆中的场景理解或感知应用[53][54][55]。近年来，语义分割在智能车辆的感知领域中发挥了重要作用，因为它提供了完整的信息。它还可以通过检测静态特征（如车道边界、道路标记、交通标志）和动态物体（如车辆）来支持智能车辆的局部映射。这些目标可以以相对较高的交并比（IOU，Intersection over Union）被识别。IOU是用于确定提议的图像分割与真实分割之间准确性的常用度量。其核心思想是为每个像素分配语义标签，随着深度学习的发展，神经网络在语义分割任务中能够实现非常好的性能。[56]首次提出了全卷积神经网络（FCNN），实现了端到端的图像分割。

表 II：在 CamVid [57] 测试集上的分割交并比（IoU，%），模型在 ImageNet [58] 和 Cityscapes [54] 数据集上进行训练。

在这里插入图片描述

表 III：在 KITTISemantic 测试集 [69] 上的分割交并比（IoU，%）。

在这里插入图片描述

在图像分割网络的主干框架中，有三种架构类型：膨胀网络、编码-解码网络和多分支网络，如图 5 所示。膨胀网络省略了下采样操作，保留了上采样操作，以保持高分辨率下的特征表示 [83]/[84]/[62]/[85]/[86]。编码-解码网络在编码部分的压缩过程后，在解码部分恢复高分辨率特征表示 [87]/[88]/[66]。这些架构专门设计用于提供最佳的语义分割解决方案，而不考虑计算成本和推理速度。然而，当研究人员尝试将这些网络应用于实际场景时，这些问题便显现出来。因此，越来越多的人开始修改这些架构，以简化计算过程，加快计算时间。这一过程始于限制输入数据 [65]/[89]/[90]，并在计算的早期阶段修剪通道，以直接提高推理速度 [59]/[63]/[91]。DFANet [64] 回收特征，以简化和改善特征表示过程。尽管这些方法能够满足图像分割任务的实时要求，但尺寸和通道的减少会导致准确性的大幅下降。最近，研究人员采用了一种新方法，使用双分支或多分支架构。ICNet [65] 首先提出了一种具有三条不同深度分支的多分支架构，以处理不同分辨率的输入，从而实现实时语义分割。Fast-SCNN [92] 也采用了双分支架构的理念，学习对输入进行下采样并随后处理。BiSeNet [66]/[51] 提出了双边分割网络，其中包含一条详细分支和一条语义分支，如图 5 所示。详细分支旨在捕捉具有宽通道和浅层的空间细节，而语义分支则具有较小的通道和较深的层次，以捕捉语义上下文。[67] 首次提出将深度高分辨率表示应用于实时语义分割，丰富了上下文信息。该方法由残差块和瓶颈块组成，在深度和宽度扩展时提供速度与准确性的权衡。[68] 在为图像分割任务设计的 PID 控制器之间架起了一座桥梁，激发了额外分支的灵感。通过利用边界预测以确保语义上下文周围的精确标注，他们在实时语义分割任务中取得了最先进的结果。对深度学习算法在该领域的最新调查感兴趣的读者可以参考 [93]。

3.2 LIDAR

图像语义分割在地图更新过程中至关重要。然而，**传感器在低光照条件下记录数据的局限性、缺乏深度信息以及有限的扫描区域，使得完全依赖基于视觉的传感器作为唯一的感知信息来源变得困难。**相比之下，激光雷达（LIDAR）传感器能够在任何光照条件下提供可靠的深度信息，并以高频率流动的数据为其提供了优势。然而，[94] 也详细阐述了由于光照不足而导致的激光雷达传感器在测量时的低点密度和粗糙度的局限性。

在这一领域，许多研究已经开展，推出了公共数据集，如 KITTISemantic [69]、RELLIS-3D [95] 和 TheSemanticKITTI [96]。激光雷达数据通常以非结构化格式出现，并根据物体与传感器的相对距离而变化稀疏性。这些特征构成了充分利用传感器数据作为提供语义分割结果的主要传感器的主要挑战。然而，越来越多的研究致力于解决这些问题。该领域的早期工作依赖于将检测到的物体从图像投影到 3D 点云空间，以实现 3D 物体检测，这种方法也被称为激光雷达传感器的 2D 语义分割 [97]。该方法基于全卷积神经网络（FCNN）和递归神经网络（RNN）层的编码-解码网络。随后，他们在 [98] 和 [70] 中进一步完善了该方法，以改进损失函数和批量归一化模型。RangeNet++ [71] 源自 YOLOv3 的 DarkNet 主干，通过在点云上使用快速 K 最近邻（KNN）算法提供了一种高效的分割结果预测方法。PolarNet [72] 引入了一种使用极坐标鸟瞰图（BEV）的新方法。该极坐标网格使用 PointNet [100] 提供数据驱动的特征，而不是手动设计的特征。随后，SalsaNet [101] 使用 ResNet 块作为编码部分，并在解码部分上采样特征。他们的方法中也使用了 BEV 方法，并在 SalsaNext [73] 中通过提出一种新的改进的编码-解码器来实现 2D 语义分割的最先进结果。

接下来，研究发展为将点云直接输入到 3D 卷积网络中，使用体素表示进行 3D 卷积 [102][103][104]。PointNet [100] 和 PointNet++ [105] 引入了不同点云尺度的采样以提取特征。当处理大量点云数据时，该方法特别缓慢。RandLA-Net [74] 随机下采样特征以加速计算过程，同时引入局部特征聚合模块，以增加每个 3D 点的感受野。KPConv [75] 引入了一种新的处理点的方法，无需任何预处理步骤。随后，MinkNet [76] 引入了一种新颖的 4D 卷积，并提供开源代码以自动区分稀疏张量。与其他 3D 语义分割方法相比，该方法能够实现最先进的结果。

最后，混合方法利用基于体素、图像-激光雷达投影和/或逐点操作来处理点云。由于内存限制，这种方法在过去并不常见。然而，随着内存高效算法的发展，该方法能够提供有意义的结果。FusionNet [77] 使用基于体素的小型 PointNet，直接将邻域体素的特征投影到目标体素，从而实现高效计算以处理大规模点云数据。然后，3D-MiniNet [78] 使用基于学习算法的投影方法从 3D 数据中提取特征，然后将其输入到 2D FCNN 中以预测语义分割结果。SPVNAS [79] 源自 MinkNet 库 [76]，能够提出混合的 4D 稀疏卷积和逐点操作，以实现卓越的语义分割结果。最后，(AF)2-S3Net [81] 也基于 MinkNet [76] 模型，可以转化为端到端的编码-解码器，并增加注意力层，以在与其他混合方法比较时实现最先进的结果。在最新的发展中，[80] 在某些领域（如道路和人行道检测）能够以更少的参数实现可比的结果，从而将处理时间加快了 2.17 倍。[82] 通过利用丰富的语义和结构信息以及知识蒸馏，能够提升激光雷达点云语义分割的性能。对激光雷达语义分割数据集和方法的最新调查感兴趣的读者可以参考 [106]。

3.3雷达

最近的研究逐渐利用各种方法来改善基于毫米波雷达数据的物体检测和分类 [107]/[108]/[109]。由于雷达数据提供的点稀疏性，实现物体检测和分类是一个非常具有挑战性的问题。科学家们通过将来自多个帧的雷达数据累积为基于雷达的网格地图来解决这个问题。这种累积提供了丰富的点，从而在一定程度上改善了检测结果。然后，这些数据被输入到分割网络中 [109]。与图像处理类似，卷积神经网络也被用于雷达分割问题 [107]/[110]。随后，雷达网格地图被用来分类静态地图元素，并识别以网格格式表示的每个元素的方向。

在这里插入图片描述

图 6：基于 PointNet++ 的雷达语义分割 [105]。该图经过重新绘制和修改，参考了 [111] 中的描述。

有另一种方法直接依赖深度学习算法来处理雷达数据。这种方法类似于激光雷达分割，通常使用如PointNet++ [105] 的神经网络。该网络首先经过修改，以适应雷达数据的密度和采样率 [108]/[112]。雷达语义分割的数据处理框架如图6所示。此外，卷积神经网络（CNN）和循环神经网络（RNN）中的长短期记忆网络（LSTM）也被用于分类静态和动态交通元素 [113]/[114]。文献 [115] 提出了一个轻量级架构，通过利用多视角雷达来检测和定位移动物体，并且该方法能够确定它们的速度。对毫米波雷达语义分割中深度学习方法的最新综述感兴趣的读者可以参考文献 [111]。

4. 定位模块

表 IV：视觉定位方法列表

在这里插入图片描述

定位是自动驾驶车辆的主要子系统之一。目前，车辆上用于定位的主要传感器包括GNSS、IMU、摄像头、激光雷达（LIDAR）和高清地图（HD Map）。从原则上讲，车辆定位是智能车辆创建地图准确性的关键。因此，使这一过程成为架构的一个不可或缺的部分。以下，我们将简要解释这些传感器上算法的发展，这些算法支持高清地图构建和更新的进步。本节将摄像头和激光雷达部分分为里程计和地图匹配方法。读者可以参考文献[139]，以获取更完整和最新的实时性能定位技术调查。

4.1 GNSS和GNSS-IMU

GNSS是一种普遍的方法，为车辆提供绝对定位解决方案。然而，由于常常受到非视距（NLOS）、信号阻塞或多路径问题的影响，其可靠性只能在开阔区域内维持[140]/[141]。当前的趋势是将GPS数据与来自其他资源的其他测量结果结合，包括IMU、视觉里程计、激光雷达里程计和高清地图。当前的标准方法试图通过校正方法提高准确性和可靠性，包括滤波[142]、融合[143]和地图匹配[144]。文献[142]提出了一种异常信号识别框架，以提高基于GNSS的定位的鲁棒性。文献[145]通过去除周期性信号和利用从数字地图获得的高度信息来提高定位精度。文献[146]通过分析非视距信号延迟来增强准确性。在GNSS的最新发展中，实时动态（RTK）技术甚至可以达到厘米级的精度[147]。该技术要求天线精确校准，以接收来自GNSS卫星传输的信号，然后根据已知位置的基站接收的数据进行校正。这种方法的问题在于传感器的高成本，使其不适合一般应用。因此，使GNSS定位解决方案可行的另一种方法是添加IMU传感器。该传感器可以提供加速度、俯仰率等信息，并对干扰具有较强的鲁棒性[148]。它与GNSS完美互补，因为它可以在GNSS数据中断时保证连续定位[149]。文献[150]提出了一种机器学习算法，以补偿GNSS故障期间IMU数据的偏差。该方法可以实现米级定位精度。文献[151]提出了一种基于航迹推算（DR）的多重交互模型（IMM），在GNSS数据经历信号阻塞时提高车辆定位的准确性和完整性。文献[152]提出了一种基于IMU传感器生成的俯仰率的模式识别方法来计算车辆定位。该方法将振动和车辆运动的模式与预构建地图进行匹配，以进行位置估计。这种定位可以实现米级精度。随着激光雷达、摄像头和雷达等其他传感器的发展，GNSS传感器成为初始化传感器，其绝对定位被用于并根据所使用的传感器进行精炼，详见下一节。

4.2 视觉里程计、视觉惯性里程计和视觉SLAM

视觉SLAM方法，如滤波和批优化，是解决视觉里程计问题的标准方法。通过使用后续图像帧，可以更新所有状态的概率分布，最终，滤波方法可以估计相机的运动。MonoSLAM[117]是最早能够满足运动估计实时要求的方法之一。该方法利用基于稀疏特征的地图和扩展卡尔曼滤波器（EKF）框架。文献[153]扩展了之前的工作，后来他们添加了RANSAC算法[154]以去除特征异常值[155]。其他采用批优化的方法通过迭代寻找最大后验估计（MAP）来处理问题，通常通过束调整（BA）算法解决。一般而言，这种方法需要大量的计算能力。文献[156]能够降低复杂性，同时在准确性和效率上超越滤波方法。在下一次迭代中，文献[157]提出了一种滑动窗口与BA方法，并添加了回环闭合，从而提高了定位精度。随后，文献[131]/[132]提出了一种名为ORBSLAM和ORBSLAM2的新方法，这是第一个能够实时工作并提供快速准确定位的SLAM算法。他们还通过添加惯性传感器来扩展算法，以确保零漂移定位[133]。文献[135]/[136]提出了SOFT，这是一种通过特征检测和跟踪执行鲁棒快速视觉里程计的新算法。在下一次迭代中称为SOFT2，文献[137]/[138]引入了多假设透视校正（MHPC），以执行透视校正。文献[158]还提出了一种称为直接方法的方法，该方法依赖于稠密视觉信息。文献[119]利用半稠密信息，进一步将要求减少为稀疏点，从而显著提高计算效率，使其从需要GPU转变为仅需CPU即可实现实时应用[121]。

与视觉SLAM类似，使用惯性传感器扩展视觉里程计，基于滤波的方法，如卡尔曼滤波器，也在文献[135]中实施，以执行异常值拒绝，文献[124]中也使用了滑动窗口方法来提高相对运动的准确性。批优化通常用于VIO实现，例如文献[127]/[123]/[127]/[138]在关键帧之间补充惯性传感器数据作为约束，并使用图优化问题进行求解。文献[123]在早期初始化阶段使用惯性约束。视觉运动估计的集成仍然有待改进，特别是在映射目的方面。定位精度应达到与高清地图相似的水平。

4.3 激光雷达里程计、激光雷达惯性里程计和激光雷达SLAM

激光雷达里程计可以通过随时间变化的连续点云扫描进行估计，类似于视觉里程计。估计激光雷达里程计的三种常见方法包括基于3D配准（稠密）、基于3D特征（稀疏）和基于3D深度学习的方法。第一种方法依赖于所有点云数据，这意味着计算负担非常高，实时能力难以实现[159]。执行点关联的经典方法是迭代最近点（ICP）[160]，包括点-线ICP[161]、点-面ICP[162]和广义ICP[163]。文献[164]提出了与ICP和姿态图处理相结合的回环闭合算法，以减少由于连续配准造成的漂移。文献[165]使用IMU数据来补偿不良初始猜测，以实现准确定位。文献[166]提出了通过法向协方差滤波器（NCF）进行下采样的方法，并通过几何对应拒绝器进行异常值拒绝，以实现准确的里程计结果。文献[167]使用弹性轨迹，允许在扫描内的姿态连续性和扫描之间的非连续性，以确保在高频运动中的鲁棒性。文献[168]提出了一种健康监测方法，利用IMU、轮子惯性里程计（WIO）、运动学惯性里程计（KIO）和视觉惯性里程计（VIO）选择优先参考定位，以补充激光雷达里程计结果。文献[169]提出了一种直接对齐稠密点云的方法，该方法经过下采样以实现计算可行性。2014年，LOAM[170]开始普及基于3D特征的方法，因为它在KITTI激光雷达里程计基准测试中达到了顶尖水平，并保持了七年的领先地位。基于特征的方法依赖于手工制作的特征，如平面[171]、线条[172]/[173]、边缘[174]和地面点[175]。这些工作利用从视觉里程计技术获得的知识，并将其转化为3D领域。TVL-SLAM[176]提出了一个独立的视觉和激光雷达前端通道，并在后端优化中优化测量结果。文献[177]提出了一种通过使用非地面球形图像和鸟瞰图地图来高效注册点云的方法，以排除地面点。文献[178]提出了一种名为连续时间ICP（CT-ICP）的方法，具有回环闭合步骤，可以在实时模式下工作。该方法通过允许扫描配准之间的弹性变形，提高了高频运动中的精度和鲁棒性。

一些研究人员通过使用深度学习算法来解决激光雷达里程计问题。文献[179]是第一种使用深度学习方法的方法，通过将3D点云转移到图像域并将数据输入网络。该网络将输出两个输入帧之间的位移和方向变化。文献[180]使用全景深度图像作为激光雷达数据的表示。LORAX[181]引入了超点，这是位于球形局部表面内的一组点。LocNet[182]手工制作了一种旋转不变表示（RIR），该表示是从点云的环形分布生成的。文献[183]提出了一种球坐标系统，将激光雷达帧投影到2D表示。Deep CLR[184]提出了一种新架构，应用流嵌入生成描述每个特征点运动的特征。文献[185]通过添加平面点提取扩展了之前的网络。这通过将点云大小减少40%-50%来增加计算时间。对视觉基础系统的最新调查感兴趣的读者可以参考文献[186]。

4.4 雷达

与激光雷达和基于视觉的定位相比，基于雷达的定位由于稀疏点的低计算负载，可以快速获得实时性能，从而使其在内存使用上更为高效[114]。一般而言，与激光雷达或基于视觉的定位相比，基于雷达的定位准确性较低，因为雷达提供的语义数据不易被检测，且点相对稀疏。文献[187]提出了Cluster-SLAM，利用粒子滤波和聚类方法执行SLAM定位。文献[114]建议构建雷达地图，并使用其与雷达图像进行匹配以获得车辆定位。该流程与一般的SLAM方法相似。文献[188]提出了一种针对全向雷达数据的概率模型，并在雪地中进行测试。他们的方法可以实现0.25米的优秀准确性结果。文献[189]提出了一种姿态图方法和回环闭合算法来解决定位任务。

该领域的最新技术由文献[190]提供，其中应用了选择每个方位角最强k值的滤波技术，并过滤雷达数据以计算一组定向表面点，以实现准确的扫描匹配。文献[191]提出了一种结合概率轨迹估计和深度学习网络生成的关键点特征的方法。该方法实现了最新的技术[190]，而无需手动制作特征。

4.5 基于地图匹配的定位

在这里插入图片描述

图7：通过联合滑动窗口优化的紧耦合地图匹配方法的示意图，用于利用特征点和向量高清地图地标估计车辆姿态。该图来自文献[9]。

地图匹配定位算法是提供准确高清地图的主要目的之一。它与高清地图在定位方面的准确性和可靠性紧密相关。地图匹配一直是持续研究的主题，可以分为在线模式和离线模式两类。在在线模式中，地图匹配过程是在行驶过程中进行的。因此，这种方法强调计算速度，以实现实时性能。

另一方面，离线模式则强调准确性，因为地图匹配过程是在轨迹完成后进行的，时间不再是限制因素。这种方法在地图构建等应用中是可行的，因为准确定位的重要性超过了实时性能。然而，在线地图匹配算法可以适用于变化检测的流程，这通常是在在线进行的。考虑到对地图匹配方法的简要介绍，感兴趣的读者可以参考[192]/[193]，以获取关于该主题最全面和引用最多的综述。

表V：基于文献[194]的几何地图匹配方法性能列表。

在这里插入图片描述

几何算法是地图匹配中最常见和最早的方法。根据文献[195]，可以将其分为三种类型：点对点、点对曲线和曲线对曲线。最终，点对曲线方法促成了在线地图匹配方法的发展，而曲线对曲线则推动了离线地图匹配方法的进步。文献[194]介绍了四种基本的几何方法：点对曲线、考虑航向的点对曲线、考虑路线拓扑的点对曲线，以及曲线对曲线。结果总结在表V中。

在文献中，用于比较点与曲线的距离度量引起了广泛关注[196][199]。文献[203][204]提出了一种基于滤波和多假设算法的车道地图匹配方法，具有车道级的精度。然而，由于特定任务对定位精度的要求不断提高，以及可提供准确性和完整性方面重要细节的地图替代方案（如车道图[216]、密集地图和矢量化高清地图）的数量不断增加，这些方法逐渐失宠。

近年来，几位研究者探讨了使用传感器（如摄像头、激光雷达、雷达和高清地图）以获得非常精确的定位结果的想法[198]/[208]/[210]。文献[8]引入了车道标记和路缘匹配，以提供精确且稳健的在线定位。该方法使用卡尔曼滤波技术来优化地图匹配的定位结果。尽管该实验获得的0.07米的精度结果非常有前景，但这里提到的精度是立体图像上地图投影的平均残差，而非实际的定位精度。文献[205]提出了一种由多个车道标记表示为多线段的方案。文献[201]建议使用毫米波雷达进行地标匹配，并分析了地标匹配在快速识别点群方面的性能。在文献[202]中，他们提出在地图匹配算法中包含所有检测到的车道标记，并施加粒子滤波器以进一步提高定位精度。文献[209]提出了一种基于刚性地图的ICP地图匹配方法，达到了0.475米的误差。文献[9]提出了一种紧耦合的方法，通过连续图像帧生成的特征点共同优化车辆姿态，如图7所示。文献[217]首次提出了一种深度学习算法来解决地图匹配定位问题。他们训练网络以仅根据原始GNSS数据进行定位。王[211]提出了一种新颖的关联方法，结合滑动窗口因子图优化，适用于城市道路。文献[213]重建局部语义地图，然后通过神经网络在高速公路场景中将其与矢量化地图进行匹配。随后，BEVLocator[214]在实验中报告了0.052米和0.135米的横向和纵向平均绝对误差，显示出精度的大幅提升。他们是首个创建从特征提取到定位结果的端到端网络的研究者。该网络通过数据驱动的学习框架预测最佳姿态。他们通过将周围图像转换为鸟瞰视图（BEV）空间来编码视觉特征，同时将地图数据编码以形成地图查询。到本文撰写时，他们的结果仍然是执行地图匹配定位的最先进方法。金[215]提出了一种道路形状分类方法，并结合稳健的地图匹配定位。该方法将车道线约束为三类：直线、圆弧和克洛索伊德曲线。尽管在横向上该方法可以实现厘米级的真实车辆实验精度，但在纵向上，该方法与此处提出的其他方法相比表现较差。文献[212]首次提出使用声源定位并将车辆轨迹与高清地图进行匹配的方法。该方法可以实现30厘米的定位精度。

表VI：地图匹配定位方法列表

在这里插入图片描述

5. HD地图构建

为了生成智能车辆所使用的高清地图，主要通过三种过程利用配备先进传感器的专业测绘车辆来执行上述任务[218]。首先，测绘车辆沿目标路线行驶，以获取测绘数据（数据预处理）。接下来，根据特征类型，基于车辆在地图上的轨迹对从测绘车辆获取的特征进行累积（地图构建）。最后，对地图中的特征进行精炼和确认（地图更新）。本节将首先介绍高清地图的分类法和本体论，以解释在这一方面所做的工作，然后将重点转向高清地图的测绘过程，包括前一节中检测到的地图元素的矢量化过程。

5.1 地图元素矢量化

近年来，提出了多种地图表示方法。有关此主题的更多信息，建议读者参考文献[219]。在本小节中，我们将强调矢量表示，这是最常见的永久静态层。执行语义数据的矢量化过程有三个基本步骤：第一步是噪声过滤。由于语义分割并不完全准确，因此有必要去除这一过程产生的噪声。然后，可以在SLAM算法中处理这些点，以确定其在三维坐标中的空间位置。此外，可以使用KD树构建来过滤掉离群点[220]。

在这里插入图片描述

图8：地图特征元素的矢量化示意图(a) 点目标(b) 线目标© 面目标该图根据文献[221]中的描述进行了重新绘制和修改

下一步是聚类，存在几种聚类方法，例如欧几里得聚类提取 [222] 和 RANSAC [154]。RANSAC 算法可以同时对每个对象执行这两项任务。图8展示了三种基本类型的地图特征元素矢量化结果。这些类型是根据地图元素的形状特征进行匹配的。在交通场景中，点目标是指其几何形状可以在图像中抽象为一个点的对象，例如交通信号灯、交通标志、道路标线等。线目标是指其几何形状可以抽象为线段的对象，例如路灯杆、车道线等。由于车道线在曲线和交叉口区域的形状不规则，因此在图像坐标系统中用特定的点和线进行建模并不容易。在矢量特征提取中，它被描述为折线特征，所有图像点都用作几何描述 [210]。平面对象通常用于描述交通标志。由于这些地图元素的形状各异，描述也可以从圆形平面形状变化为边界框平面形状。

从地图元素的矢量化扩展，高清地图的数据建模同样至关重要。在文献 [223] 中，提出了 Lanelet2 高清地图框架，以满足高清地图在完整性、准确性、可验证性和可扩展性方面的高要求。[224] 通过扩展广泛使用的节点-边缘模型，提出了一种适合研究的高清地图数据模型。该模型考虑了公路和非公路数据，以便为未来的用例和户外空间中各种三维对象的信息提供可扩展性。他们的工作通过添加交叉口、边缘、类型、照片、纬度和经度等细节，扩展了矢量化格式。VAD [225] 探索了驾驶场景的完全矢量化表示，以将这些信息纳入路径规划任务。郭 [226] 通过利用场景工程技术，提出了一种新的框架，用于在边缘案例场景中预测轨迹。这种方法不仅为仿真系统与现实场景之间架起了桥梁，还提高了在挑战性场景中对自动驾驶车辆轨迹预测的可靠性。这些发展的动机部分源于多个用例，这些用例将从高清地图数据中受益。

5.2 地图构建模块

一般而言，地图构建模块将从图像中获得的语义信息连接到三维空间点。这个过程涉及到更大区域的三维重建和融合算法。三维重建方法包括几何方法、基于图的算法、SLAM 和学习方法。对于希望深入了解高清地图生成技术的读者，可以参考教程 [227]，该教程介绍了在城市环境中为自动驾驶生成高清地图的相关内容。以下小节将详细解释这些方法的具体内容：

5.2.1 几何方法

从两幅图像重建场景的问题最早由 [228] 提出。随后，[229, 230] 推广了多视角几何解决方案，其中多个图像被结合以重建图像的关键点为三维表示。COLMAP 为整个社区带来了益处，并成为许多研究者在这一方向上的基准。实质上，这种方法的映射精度与跟踪算法的精度和车辆姿态的精度直接相关。在 [231] 中，提出了一种端到端的方法用于交通标志和车道的映射。该方法利用消费级传感器，如前置单目相机和消费级 GPS。他们使用三角测量算法和离线束调整来重建标志和车道。在经过 25 次行程后，他们能够实现 15 厘米的相对误差。[232] 使用三星 Galaxy S7 智能手机相机的简单投影矩阵生成高清地图，并能够在距离相机 15 米处实现 5% 的测量误差。在 [233] 中，从车辆获得的语义数据被直接转换为其三维点云对应物。然而，生成的地图密集且不适合实时应用。[234] 是最早提出使用多视角几何来估计交通标志定位的研究之一。他们的优势在于基于学习的自我校准、深度和运动估计，这可以促进交通标志姿态的重建。交通标志地图的绝对位置精度达到 1.26 米，但仍远未达到高清地图所需的精度。[235] 提出了使用车辆里程计、GNSS 和立体图像数据的端到端映射解决方案。他们能够估计并消除时间定位偏差。他们还展示了使用环闭检测算法生成的地图可以将偏移的最大误差减少 56.53%，并提高 24.39% 的精度。[236] 创建了一种新的数据关联算法，采用深度排序策略来跟踪已发现的地图元素。他们使用运动流和几何一致性作为主要相似性度量，以确保算法的正确性。该方法从分割到重建路边地图元素的映射时间少于 400 毫秒，是最快的。[237] 能够通过将密集的原始点转换为具有稀疏参数的曲率连续克洛索伊德路径来重建短路段，同时在给定的偏差限制下保持精度。然而，该方法在在线映射适应方面尚未成功，仍需未来的研究。[238] 将几何表示与学习方法结合，能够实现最先进的结果。值得注意的是，这篇论文首次利用基于注意力的学习框架的关键几何特性。

5.2.2 SLAM 映射

映射方法的目标是长期部署一个可以在车辆之间共享的地图作为服务 [239]。在前一节中提到的 SLAM 方法，从基于视觉到基于激光雷达。这些方法将 SLAM 方法视为获取定位的必要手段，使得映射过程成为次要。然而，本节将重点关注 SLAM 方法，其中地图是算法利用的目标。[240] 是首个使用 GraphSLAM 方法将映射数据处理为城市区域的大规模映射的研究。他们的方法基于 RLS 算法递归估计地图元素的位置。[241] 撰写了关于使用 GraphSLAM 的教程，进一步推动了该方法的普及。[242] 提出了二维图形对应关系，以在密集城市区域自动映射道路标线、人行道和虚线。他们在识别和重建过程中施加几何规范约束。该方法使用安装在映射车辆上的立体相机。[12] 提出了使用粗略先验地图生成准确高清地图的通用方法，结合了 GraphSLAM 技术和粒子滤波算法。他们的方法能够在城市和高速公路场景中生成平均精度低于 10 厘米的车道线。[243] 使用专业级传感器（GNSS、IMU、激光雷达和度量相机）进行映射。他们能够在车辆 50 米范围内实现厘米级的绝对精度。

在这里插入图片描述