论文阅读《High-Definition Map Generation Technologies For Autonomous Driving: A Review》1

YMWM_

已于 2022-09-02 00:00:05 修改

阅读量1.7k

点赞数 2

分类专栏：论文文章标签：自动驾驶高精地图

于 2022-09-01 23:57:11 首次发布

本文链接：https://blog.csdn.net/YMWM_/article/details/126595093

版权

论文专栏收录该内容

36 篇文章 12 订阅

订阅专栏

摘要

在过去几年里，自动驾驶一直是最受欢迎和最具挑战性的话题之一。在实现完全自主驾驶的道路上，研究人员利用各种传感器，如激光雷达、相机、惯性测量单元(IMU)和GPS，并开发了用于自动驾驶应用的智能算法，如目标检测、目标分割、障碍物回避和路径规划。近年来，高精地图备受关注。由于高精地图在定位上的高精度和信息化程度，它立即成为自动驾驶的关键组成部分之一。从百度Apollo、英伟达(NVIDIA)和TomTom等大型组织到个人研究人员，研究人员为自动驾驶的不同场景和目的创建了高精地图。有必要回顾一下目前最先进的高精地图生成方法。本文综述了近年来利用2D和3D地图生成的高精地图生成技术。本文介绍了高精地图的概念及其在自动驾驶中的应用，并对高精地图生成技术进行了详细的概述。我们还将讨论当前高精地图生成技术的局限性，以推动未来的研究。

1 介绍

“高精地图”概念最早是在2010年梅赛德斯-奔驰的研究中引入的，后来在2013年为Bertha Drive Project[1]做出了贡献。在Bertha Drive Project中，一辆梅赛德斯-奔驰S500在完全自主模式下完成了Bertha Benz纪念路线，使用了高度精确和信息详实的3D路线图，后来被参与测绘的HERE[2]公司命名为“High Definition (HD) Live map”。高精地图包含自动驾驶所需的道路/环境的所有关键静态属性(例如：道路、建筑物、交通灯和道路标记)，包括由于遮挡而无法被传感器适当检测到的物体。近年来，自动驾驶高精地图以其高精度和丰富的几何和语义信息而闻名。它与车辆定位功能紧密相连，并不断与激光雷达、雷达、相机等不同传感器相互作用，构建自主系统的感知模块。这种交互最终支持了自动驾驶车辆[3]的任务和运动规划，如图1所示。

在这里插入图片描述

图1 自动驾驶架构。高精地图包含关于道路/环境的静态信息和属性，包括由于遮挡而无法被感知模块检测到的物体。并根据道路特征对车辆进行自我定位。环境与感知模块提供车辆周围的实时环境信息。高精地图和感知模块共同工作，最终支持任务和运动规划模块，包括导航、运动引导和稳定控制。

在自动驾驶市场上，没有唯一的标准的高精地图结构。然而，目前市场上的高精地图有一些常用的结构，如导航数据标准(NDS)[4]、动态地图平台(DMP)[5]、HERE高清实时地图[2]和TomTom[6]。大多数结构共享类似的三层数据结构。表1显示了TomTom[7]、HERE[8]和Lanelet (Bertha Drive)[1]定义的三层结构高精地图。本文将采用HERE的术语来指代这三层，如图2所示。

表1 三层结构高精地图的示例。

在这里插入图片描述

图2 由HERE定义的高精地图结构：高精道路由拓扑结构、行驶方向、交叉路口、坡度、坡道、规则、边界和隧道组成。高精车道由车道级别特征组成，如边界、类型、线条和宽度。HD定位包括道路设施，如交通灯和交通标志等。

第1层道路模型(Road Model)定义了道路特征，如拓扑、行进方向、高程、坡度/坡道、规则、路缘/边界和交叉路口。它用于导航。第2层车道模型(Lane Model)定义了车道层次特征，如道路类型、线路、道路宽度、停车区域和速度限制。该层作为自动驾驶的感知模块，可以根据实时交通或环境进行决策。顾名思义，最后一层，定位模型，在高精地图中定位自动车辆。这一层包含路边的设施，如建筑物、交通信号、标志和路面标记。这些功能有助于自动车辆快速定位，特别是在其特征丰富的城市地区。以上组织制作的高精地图都是精确的，并且不断更新。然而，它们只是用于商业目的，而不是开源的。个人研究人员很难使用上述结构来构建高精地图。因此，本文将对未商业化的高精地图生成方法进行综述，这些方法可能有助于研究人员创建个性化的高精地图，并开发新的高精地图生成方法。

本文的结构安排如下：第2节回顾了近年来高精地图数据采集的方法。第3节回顾了近年来高精地图特征提取的方法，包括道路/车道网提取、道路标记提取和pole-like物体提取。第4节介绍了HD地图的常用框架。第5节将讨论目前高精地图生成方法的局限性，并对高精地图提出一些开放性的挑战。最后，第6节给出结论。

2 高精地图的数据采集

数据来源/收集是生成高精地图的第一步。数据收集使用移动地图系统(MMS)完成。MMS是一个移动车辆，它装有地图传感器，包括GNSS(全球导航卫星系统)、IMU、激光雷达(光检测和测距)，相机和雷达，以收集地理空间数据。商业化的高精地图提供商都采用众包的方式来收集制作和维护高精地图的数据。Level5与Lyft合作，让20辆自动驾驶汽车沿着加州帕洛阿尔托的固定路线行驶，收集包含17万个场景的数据集，包含15242个标记元素的高精语义地图，以及[9]区域的高精鸟瞰图。TomTom通过多种途径收集数据，包括调查车辆、GPS轨迹、社区投入、政府来源和车辆传感器数据[10]。HERE利用全球400多辆测绘车辆、政府数据、卫星图像和社区投入，不断获得更新的道路信息。通过众包的方式收集数据，可以在短时间内收集到大量最新的道路/交通数据。众包数据还包括不同的环境，包括城市、城镇和农村地区。然而，由于多个移动地图系统的成本较高，且数据收集耗时较长，该方法并不是单个研究人员的最优解决方案。个别研究人员也利用MMS来收集数据。他们不是为世界各地不同类型的环境收集数据，而是专注于一个小得多的区域，如城市、大学校园或住宅区。收集的数据类型也被更详细地指定用于研究目的。此外，还有大量的开源数据，如卫星图像、KITTI数据集[12]、Level5 Lyft数据集[13]和nuScenes数据集[14]，供研究人员进行测试和生成高精地图。这些数据集包含二维和三维真实世界的交通数据，包括图像、三维点云和IMU/GPS数据，这些数据已经被组织和添加标签。数据收集方法及比较汇总于表2。

表2 数据采集方法比较

在这里插入图片描述

下一步是利用采集到的道路环境数据，从原始数据中提取有用的特征。

3 点云地图生成

一旦采集到初始传感器数据，通常进行融合和排序，生成初始地图，主要用于精确定位。建图主要是使用3D激光传感器生成的；然而，它可以与其他传感器融合，如IMU [15]、[16]和[17]， GPS[18]，里程计[19]和视觉里程计[20]，以便得到在高精地图中更准确的状态估计。INS和GPS传感器提供方位和位置信息，以厘米精度更新地图位置。这些点云地图精度很高，可以辅助地面车辆在三维空间中进行厘米级的精确机动和定位。然后，在从建图获得点云配准后，从PCL地图创建矢量地图。点云配准称为多步骤过程(如图3所示)，将几个重叠的点云对准，生成详细而精确的地图。矢量地图包含与车道、人行道、十字路口、道路、交通标志和交通灯相关的信息。这一关键特征后来被用于检测交通标志和交通灯、路线规划、全局规划和局部路径规划。毫无疑问，地图生成是高精地图生成的重要组成部分。它可以被定义为高精地图的基础几何地图层。

在这里插入图片描述

图3 常见的点云配准多步骤过程。

3.1 建图技术

地图生成技术可以分为在线地图和离线地图。离线地图数据全部收集在一个中心位置。这些数据使用的是卫星信息或从激光雷达和相机存储的数据。在收集数据之后，将离线构建地图。另一方面，在在线地图中使用轻量级模块实现机载地图生成。除了地图的形成类型，测绘技术还可以根据传感器的使用和传感器的融合方式进行分类。以下的测绘技术需要基于激光的传感器，因为它们在远距离显示出有希望的准确性。

目前所有有前景的测绘技术都采用激光作为主要传感器来测绘和完成高精地图。另一方面，也有一些方法只使用视觉传感器来构建点云地图。本文提出了一种用于三维模型生成的点云配准技术。但是，下面的方法是根据支持高精地图的建图来分类的。

3.1.1 基于分割的点云配准

SegMap[21]是一种基于提取点云分割特征的建图解决方案。该方法通过重构局部特征进行判别，生成点云图。轨迹测试结果显示，与LOAM框架[22]相结合时，LOAM (Laser Odometry and Mapping)的性能得到了增强。构建的地图显示6%的召回准确率和50%的里程计漂移下降。因此，由于数据驱动的段描述符提供了更少的粗糙数据，因此在定位方面有了改进。为SegMap描述符训练一个简单的完全连接的网络，然后根据语义提取重建地图。

同样，采用两阶段算法来改善建图误差。该算法采用分段匹配算法与单激光雷达算法相结合的方法。同时，为了减少生成的地图与在线建图[23]之间的错误匹配，引入了基于RANSAC的几何增强算法。

3.1.2 仅基于激光雷达的点云建图

通过改进现有的LOAM[24]点选择方法和迭代位姿优化方法，在小视场和不规则采样的情况下，激光雷达已经实现了更高的精度和效率。整个建图架构如图4所示。提出了一种快速回环技术来解决激光雷达里程计和建图中的长期偏移问题[25]。另一方面，采用分散的小视场多激光雷达平台，利用扩展卡尔曼滤波[26]实现鲁棒建图。此外，还有一种技术，在机器人的不同高度安装激光雷达，生成点云[27]。

在这里插入图片描述

图4 常见建图流程。

3.1.3 里程计融合点云配准

当GPS无法使用或无法连接时，融合里程计就派上了用场，尤其是在室内。迭代最近点(ICP)方法使用6自由度信息来匹配给定点云中最近的几何图形。这样做的主要缺点是，它会停留在局部最小值，需要一个完美的起点，从而导致与真实环境的误差和不对齐增加[28]。NDTMap[29]生成是由点云转化而来的连续可微概率密度[30]、[31]。NDTMap的概率密度包含一组正态分布。它是一个体素网格，其中每个点根据其坐标分配给一个体素。将点云划分为体素云，合并后的体素在建图中进行滤波，减少噪声，减少计算量。因此，以下步骤概述了NDT建图，

从点云输入数据构建体素网格
估计初始猜测
优化初始猜测
根据NDT估计和初始估计之间的平移变化来估计状态。根据位置推导计算速度和加速度。

如果在初始估计中不使用里程计，状态估计是由每次NDT更新导出的。最初的猜测来自于基于运动模型的速度和加速度更新。引入里程计时，位置更新基于里程计数据；特别是速度模型和方向更新。

3.1.4 GPS融合点云配准

在基于图的建图中，将GNSS中的绝对位置作为约束，将点云数据与坐标系统一起来[18]。因此，点云中的体素被标记为绝对的三维坐标系信息。基于激光雷达的里程计也被用于LIO-SAM精确的位姿估计和地图构建[19]。

3.1.5 INS融合点云配准

在不使用任何传感器的情况下，车辆的状态和偏航是来自每次NDT更新计算。基于运动模型的初始猜测是由速度和加速度导出的。IMU提供二次模型的平移更新和方向更新。Autoware[32]的NDT制图技术还提供IMU和里程计融合制图。类似地，DLIO方法[33]通过使用松耦合融合和位姿图优化实现精确建图和高速率状态估计。集成了IMU，通过输入IMU偏差来修正后续的线性加速度和角速度值，从而提高可靠性。FAST-LIO[16]和FAST-LIO2[17]是激光雷达惯性里程计测量系统，用于快速和准确的测绘。该系统采用紧耦合迭代EKF(扩展卡尔曼滤波器)将IMU与激光雷达特征点融合。FAST-LIO2使用了一种新的技术，增量kd-Tree，提供了支持地图的增量更新和动态再平衡。

3.1.6 视觉传感器融合点云配准

R2-LIVE[34]和R3-LIVE[35]算法利用Laser、INS和视觉传感器融合实现精确建图和状态估计。R2-LIVE使用基于卡尔曼滤波的迭代里程计法和因子图优化来确认准确的状态估计。R3-LIVE是两个独立模块的组合：LiDAR-IMU里程计和视惯里程计。全局地图实现了激光雷达和IMU的精确几何测量。融合了IMU的视觉传感器将地图纹理投影到全局地图中。类似的两个子模块LIO和VIO也用于FAST-LIVO[20]中的鲁棒和精确建图。类似地，LVI-SAM使用两个类似于R3-LIVE的子模块来设计。根据LVI-SAM[36]，视觉惯性系统利用激光雷达惯性计算来辅助初始化。视觉传感器提供深度信息，提高视觉惯性系统的精度。

图5显示了使用现有建图算法生成的地图。有一些技术可以融合多个传感器来创建一个完整的地图。视觉里程计(IMU和相机)、GPS和LiDAR数据被组合到一个超级节点中，得到一个优化的地图[36]。图6是不同方法在线测绘得到的轨迹路径。图6(a)是测绘传感器数据的完整路径(Ontario Tech Campus)。图6(a)是记录数据的完整里程计数据。图6(b)和图6©为完整轨迹放大图。该真实路径由RTK-GPS与IMU数据融合得到。这些分数表明R3-LIVE遵循真实路径，即RTK-GPS里程计。

在这里插入图片描述

图5 建图可视化。(a) LeGO-LOAM， (b) NDT建图(Autoware)，(c) LIO-SAM，(d) FAST-LIO，(e) LVI-SAM，(f) R3-LIVE。

在这里插入图片描述

图6 不同建图算法的里程计路径图

另一方面，LIO-SAM[19]从原来的航向漂移到中间。对于NDT建图，采用了通用的PCL转换和OpenMP方法。用于作图的里程值为建图后的里程值(例如，在执行建图匹配的附加步骤之后绘制LeGO-LOAM[15]里程计)。

4 高精地图的特征提取方法

为了让车辆定位并遵循运动和任务计划，道路/车道提取、道路标记提取和类极物体提取等特征提取是必要的。传统的特征提取是人工完成的，成本高、耗时长、精度低。近年来，机器学习辅助高精地图生成技术得到了发展，并被广泛应用于提高特征提取精度和减少人工工作量。

机器学习辅助高精地图生成采用人机在环(human-in- loop, HITL)技术，该技术涉及人机交互[37]-[39]。人类给数据加标签，带标签数据使用监督学习进行训练。精度/置信度较高的结果会被保存到高精地图中，精度/置信度较低的结果会被人工检查并送回算法进行再训练。机器学习已被广泛应用于提取道路/车道网络、道路标志和交通灯。

4.1 道路网提取

4.1.1 二维航空图像道路提取

道路地图/网络对于自动驾驶系统定位车辆和规划路线至关重要。从航拍图像中提取路线图也很有吸引力，因为航拍照片覆盖了大量地图，通常是城市规模的地图，并通过卫星不断更新。然而，从航空图像手动创建道路地图是劳动密集型和耗时的。由于人为错误，它也不能保证准确的路线图。因此，需要能够自动化路线图提取过程的方法。

二维航空图像道路网自动提取可分为三种不同的方法：基于分割的方法、迭代图增长法和图生成法。

基于分割的方法。基于分割的方法从航空图像中预测分割概率图，并通过后处理对分割预测进行细化，提取图像。

Mattyus等人提出了一种直接估计道路拓扑并从航拍图像中提取道路网络的方法[40]。在他们名为DeepRoadMapper的方法中，他们首先使用ResNet[41]的变体来将航空图像分割成兴趣类别。然后，他们使用softmax激活函数以0.5概率的阈值过滤道路类，并使用闪光(shinning)提取道路中心线[42]。为了缓解道路分割的断续问题，他们将断续道路的端点与特定范围内的其它道路的端点连接起来。将连接点视为潜在道路，这里采用A*算法[43]，为间断道路选取最短的连接点，如图7所示。

在这里插入图片描述

图7 道路分割用绿色突出显示，红线为提取的道路中心线，黄色虚线表示道路的潜在连接，蓝色线条为A*算法选择的潜在线[60]。

通过评估他们在多伦多城市数据集[44]上的方法，并将结果与[45]、OpenStreetMap和地面真值图进行比较，他们显示了比出版那年的最先进技术的显著改进。除了改进之外，值得注意的是，当道路或周围环境的复杂性增加(如遮挡)时，启发式算法(A*算法)不是最优解。

为了提高基于分割的路网提取性能，解决[40]中路网不连通性问题，[46]提出了方向学习和连通性优化方法。该方法通过预测路网的方向和分割来解决路网不连通问题，并使用 $n$ -堆叠的多分支CNN对分割结果进行修正。该方法在SpaceNet[47]和DeepGlobe[48]数据集上进行了进一步评估，并与DeepRoadMapper和其它先进的方法[49]-[52]进行了比较，以显示其先进的结果。评价结果如表3所示。突出显示的粗体值代表最佳结果。根据表3的比较，OrientationiRefine优化设计的结果是最先进的。

表3 SpaceNet和DeepGlobe数据集上最先进的道路提取方法的比较。IOU^r和IoU^a分别表示松弛和准确的道路IoU。APLS为平均路径长度相似度[46]。

在这里插入图片描述

Ghandorh等人在基于分割的方法中加入边缘检测算法，从卫星图像中对分割后的路网进行了细化[53]。该方法采用了编码器-译码器结构，加上扩展的卷积层[54]和注意机制[55]-[58]，使网络具有大规模目标分割能力，并更关注重要特征。然后将分割后的路网输入到边缘检测算法中进行进一步细化。

迭代图生长法。迭代图增长方法首先从二维航拍图像中选择道路网络的几个顶点，生成道路网络。然后，一个顶点一个顶点地生成道路，直到创建出整个道路网络。

Bastani等人注意到了DeepRoadMapper的相同限制。当道路分割存在不确定性时，启发式算法的性能较差，这种不确定性可能由遮挡和复杂的拓扑结构(如平行道路)引起[52]。随着由于树木、建筑物和阴影导致的遮挡面积增加，基于CNN的道路分割表现较差。以前的方法[59]、[60]没有处理此类问题的可靠解决方案。针对上述问题，Bastani等人提出了一种新的方法RoadTracer，从航拍图像中自动提取道路网络[52]。RoadTracer采用迭代图构造程序，旨在解决遮挡导致的性能不佳问题。RoadTracer有一个由基于CNN的决策函数引导的搜索算法。搜索算法从路网中已知的单个顶点开始，并随着搜索算法的探索不断向路网中添加顶点和边。基于CNN的决策函数决定是否将一个顶点或一条边添加到路网中。通过这种方法，通过迭代图生长方法逐点生成道路图。迭代图生长法如图8所示。在15个城市地图上评估了RoadTracer方法，并将结果与DeepRoadMapper和Bastani等人实现的另一种分割方法进行了比较。RoadTracer可以生成比先进的DeepRoadMapper更好的地图网络结果。

在这里插入图片描述

图8 基于迭代图生长法的航空图像道路网络提取。绿线表示被提取出的道路[154]。

迭代图构建过程的一个缺点是生成大规模路网的效率。由于这一过程是逐点生成道路图，因此随着道路网络规模的增长，这一过程将变得非常耗时。据作者所知，RoadTracer是第一个使用迭代图增长方法生成道路网络的工作。因此，对该方法的进一步研究可以提高大规模路网生成效率。

DeepRoadMapper[40]、RoadTracer[52]、OrientationRefine[46]等最新方法在SpaceNet[47]和DeepGlobe[48]数据集上的评估和比较结果如表3所示。

图生成方法。图生成方法直接从航空图像预测路网图。该方法将输入的航空图像编码为向量场，利用神经网络进行预测。然后通过解码算法将预测解码为图。该方法已用于预测路网图，包括线段[61]、线形物体[62]和多边形建筑[63]。Xu等人在图生成方法的基础上，将图生成方法与transformer相结合[64]，提出了一种名为csBoundary的高精地图标注道路边界自动提取系统[65]。csBoundary系统首先以4通道航拍图像作为输入。它通过特征金字塔网络(Feature Pyramid Network, FPN)[66]对图像进行处理，预测道路边界的关键点图和分割图。从关键点地图中，提取一组长度为 $M$ 的顶点坐标。将关键点图、分割图和输入的航拍图像相结合，形成一个6通道特征张量。对于每个提取的顶点，大小为 $L \times L$ 的感兴趣区域(ROI)被裁剪并放置在关键点地图的中心。Xu等人也提出了邻接网络(AfANet)的注意力机制[65]。AfA编码器利用感兴趣区域计算局部和全局特征向量，AfA解码器对特征向量进行处理，预测提取顶点的邻接矩阵，生成道路边界图。所有得到的图将被用于缝合最终的城市尺度道路边界图。csBoundary的结构如图9所示。

在这里插入图片描述

图9 csBoundary系统架构[65]。

基于分割的方法可以利用CNN在很短的时间内从航空图像中自动提取大规模路网。然而，该方法的性能在很大程度上取决于航拍图像的质量。如果道路上有遮挡，可能是阴影或较大的建筑造成的，分割性能会下降。即使有DeepRoadMapper辅助的A*路径规划算法，该方法仍然不能保证高性能的路网提取，因为最短路径并不总是现实生活中的实际路径。另一方面，迭代图增长方法利用基于CNN的决策函数的搜索算法，提高了提取有遮挡的道路的性能。而迭代图生长法由于逐点构建路网的顶点，提取整个路网的时间较长。该方法的提取时间也会随着道路地图大小的增加而增加。由于该方法采用迭代的方式进行路网提取，同时由于累积误差而存在漂移问题，使得该方法对大规模路网提取具有挑战性。用于道路网络提取的图生成方法仍然局限于物体的特定形状，严重依赖解码算法，限制了其泛化能力。需要开发更多的解码算法来扩展图生成方法的提取类别。在Topo-Boundary [67]数据集上评估的三种最先进的方法的性能比较如表4所示，包括OrientationRefine [46] (基于分割的方法)、Enhanced-iCurb [67] (迭代图增长)、Sat2Graph [68] (图生成)和csBoundary [69] (图生成)。

4.1.2 三维点云的道路提取

基于三维点云的道路或车道提取已广泛应用于高精地图的生成过程中。激光雷达点云具有很高的精度，通常达到毫米级精度，并包含被扫描物体的几何信息。三维点云的道路提取是利用分割完成的。

Ibrahim等人指出，二维道路网络不能提供任何物体相对位置的深度线索，而且二维道路网络中较小的基础设施变化也不是最新的[70]。Ibrahim等人并没有在航拍图像上建立道路网络，而是展示了澳大利亚珀斯中央商务区(CBD)的高精激光雷达地图[70]。在他们的工作中，将Ouster激光雷达放在SUV的顶部，然后驾驶SUV穿过CBD，收集3D点云数据。点云数据采用回环采集方式[71]，避免了配准误差累积带来的漂移问题，如图10所示。回环检测算法用于提取形成回环的点云，其中只提取属于特定回环的帧。然后对提取出来的环路点云进行预处理，包括下采样[72]、分割地面点[73]、去除自我车辆和附近无关点。利用三维正态分布变换(NDT)对预处理后的环路点云进行配准和合并[74]。对合并后的原始点云进行空间子采样、噪声去除、重复点去除和平滑等处理后，得到最终的提取道路。

在这里插入图片描述

图10 以回环方式采集三维点云。道路点云与其它物体的点云在背景中以回环形式突出显示[70]。

Ye等人提出了另一种生成3D地图的方法，用于为特定场景创建高精地图[75]。他们的提案将一个特定的场景定义为自动驾驶应用程序的安全和操作环境。本文以大学校园的一部分为具体场景，构建三维高精地图。Ye等人将他们的HD地图架构划分为四个不同的层，包括定位层、道路矢量和语义层、动态物体层和实时交通层，见表5。定位层存储用于定位的点云和图像。道路向量和语义层存储出行的道路方向、道路类型和道路上的物体。在这一层中，使用的是OpenDRIVE文件格式。动态物体层，顾名思义，存储关于行人、障碍物和车辆等物体的高度动态感知信息。这一层以更高的频率更新，以提供来自周围环境的反馈。实时交通层存储车辆速度、位置、交通信号灯状态等实时交通数据。以实际场景的数字3D场景为参考，使用NDT算法创建3D高精地图。地图结果如图11所示。关于它们的建图过程的更多细节可以在[75]中找到。

表5 具体场景高精地图架构

在这里插入图片描述

图11 校园建筑的数字3D场景(左)及其高精地图(右)[75]。

4.1.3 基于传感器融合的道路/道路边界提取

二维航拍图像和三维点云的道路提取都存在一定的局限性。由于光照条件差、路边基础设施遮挡以及各种地形因素，从卫星和航空图像提取的道路网络通常不准确和不完整。三维点云的特征提取也面临遮挡和点密度变化的问题，导致道路提取不准确和不完整。在提取道路或道路边界时，使用单一数据源的局限性很明显。因此，研究人员一直在使用多源数据来提取和补全道路或道路边界。Gu等人[76]利用激光雷达的图像和相机透视地图，构建映射层，将激光雷达的图像视图特征转换为相机的透视图像视图。该方法提高了在相机视角下的道路提取性能。Gu等人[77]也提出了条件随机森林(conditional random forest, CRF)框架，融合激光雷达点云和相机图像，提取道路网络的范围和颜色信息。在[78]中，基于残差融合策略，设计了一种全卷积网络(fully convolutional network, FCN)，将从激光雷达和相机数据学习到的特征图进行融合，用于道路检测。Li等人[79]采用了一种不同的方法，通过融合GPS轨迹和遥感图像来构建道路地图。该方法利用基于迁移学习的神经网络从图像中提取道路特征，利用U-Net提取道路中心线。此外，[80]设计了一个紧耦合的感知规划框架，利用GPS-相机-激光雷达传感器融合来检测道路边界。

Ma等人也提出了一种新的深度学习框架BoundaryNet，利用激光扫描点云和卫星图像，提取道路边界，填补现有道路边界数据中遮挡造成的空白[81]。该方法采用基于路沿的提取方法提取道路边界，并采用改进的U-net[82]模型从道路边界点云中去除噪声点云。然后，将基于CNN的道路边界补全模型应用于提取到的道路边界，以填补一些空白。受生成对抗网络(Generative Adversarial Networks, GAN)方法的启发[83]，设计了一种基于条件的深度卷积生成对抗网络(c-DCGAN)，利用卫星图像中提取的道路中心线来提取更准确完整的道路边界。所提方法的体系结构如图12所示。

在这里插入图片描述

图12 BoundaryNet的架构。利用基于路沿的方法从原始点云中提取道路边界。应用U型编码器-解码器模型和基于CNN的补全模型的道路边界补全。利用D-LinkNet模型从卫星图像中提取道路中心线[156]。基于c-DCGAN模型的道路边界优化。基于提取到的道路边界计算道路几何。

4.1.4 其它方法

也有不同的方法来提取道路网络。Schreiber等人和Jang等人[84]、[85]采用了不同的方法，从相机图像而不是航空图像中提取道路。前者对相机图像进行三维重建，后者设计了全卷积网络(FCN)对道路进行检测和分类。这两种方法都可以应用于小规模的高精地图，但由于数据收集的工作量和时间巨大，不能用于大型或城市级别的高精地图。[86]列出了更多基于机器学习的道路/车道提取方法，Aldibaja等人[87]也提出了一种3D点云积累方法，该方法也值得学习，但在本文中不做详细讨论。

道路提取可以通过不同的数据源进行，包括相机图像、卫星和航空图像、激光雷达点云和GPS轨迹。卫星和航空图像可以覆盖大规模地图，使得城市级别路网的道路提取效率很高。然而，从卫星和航空图像提取的道路网络不包含深度和高度信息。从航空图像中提取道路的性能也在很大程度上取决于图像的质量。光照条件差、路边基础设施遮挡和各种地形因素都会降低提取效果。相比之下，三维点云的道路提取具有更多的几何信息和较高的精度水平(毫米级)，但也面临遮挡问题，导致道路提取不完整。点密度变化问题也导致不准确的道路提取。随后引入了传感器融合方法，通过融合不同数据源，如航空图像、GPS数据、相机图像和激光雷达点云，进一步提高了道路提取性能。在道路提取中，传感器融合方法优于单一数据源的方法，取得了显著的效果。表6总结了三种方法的比较。

表6 路网提取方法比较。

在这里插入图片描述

4.2 道路标志提取

道路标志/路面标记是混凝土和沥青道路表面上的标志[88]。它们通常被涂上高度反光的材料，使人类的视觉和自动驾驶汽车的传感器能够注意到它们。道路标志是高精地图上的基本特征，为车辆提供有关交通方向、转弯道、可行驶和不可行驶的车道和人行横道等信息[89]。与道路提取方法类似，道路标志提取也可以使用2D图像或3D点云。

4.2.1 从二维图像提取道路标志

传统上，二维图像上的道路标志提取是通过图像处理和计算机视觉来实现的。首先对含有道路标志的图像进行去噪和增强处理，使道路标志清晰明显，突出目标与背景区域的对比。然后，利用基于边缘检测(如Roberts、Sobel、Prewitt、Log、Canny)、阈值分割(如Otsu法、迭代法)、k-means聚类、区域生长法等图像处理和计算机视觉方法提取目标道路标志[90]。传统方法在从路面或混凝土路面提取道路标志方面取得了显著的效果。然而，简单的提取方法在没有正确识别不同道路标志的情况下，对于车辆理解道路规则是不够有效的。随着CNN的引入和快速发展，涉及CNN的方法在道路标志检测和识别中得到了广泛的发展和应用。二维图像上的道路标志提取和识别通常有两种不同的方法。一种是利用车载相机捕捉的前视图像。另一种是从航拍图像中提取道路标志。图13显示了两者的一个示例。

在这里插入图片描述

图13 前视图像上的道路标志VS航空图像上的道路标志。

基于前视图像的道路标志提取。前视图像因其成本效益和便利性而被广泛用于道路标志提取。几种检测车道线标志的方法已经被提出。Zhang等人[91]提出了Ripple Lane Line Detection Network (RiLLD-Net)用于检测常见的车道线标志，Ripple-GAN用于检测复杂或被遮挡的车道线标志。RiLLD-Net是由U-Net[82]、带有跳跃连接的残差模块以及编码器和解码器之间的快速连接组合而成。利用Sobel边缘检测滤波器将含有车道线标志的原始图像预处理为梯度图[92]。将原始图像和梯度图送入RiLLD-Net，去除冗余干扰信息，突出车道线标志。Ripple-GAN是Wasserstein GAN (WGAN)[93]和RiLLD-Net的组合。将一幅加高斯白噪声的原始车道线标志图像送入信号处理网络，得到分割的车道线标志结果。将分割结果与梯度图一起发送到RiLLD-Net，进一步增强车道线标志检测结果。此外，[94]提出了一种具有双重卷积门控递归单元(ConvGRUs)的时空网络[95]、[96]用于车道线检测。该网络不是一次拍摄一张图像，而是以连续时间戳的车道线标志作为输入，进行多次捕捉。两个ConvGRUs各有其各自的功能。第一个ConvGRU也被称为Front ConvGRU (FCGRU)，它被放置在编码器阶段，用于学习物体的低级特征(如颜色、形状、边界等)，并过滤掉可能影响模型学习过程的干扰信息。第二个ConvGRU也称为中间ConvGRU，包含多个ConvGRU。它被放置在编码器和解码器相位之间，用于彻底学习FCGRU产生的连续行驶图像的时空行驶信息。然后，该网络连接来自编码器的下采样层和来自解码器的上采样层，以产生最终车道线标志检测。此外，也有人提出了其它方法来解决车道线检测和提取问题，如图嵌入车道检测[97]、基于渐进式概率霍夫变换的车道跟踪[98]、SALMNet[99]、基于分割的车道检测[100]和掩模R-CNN实例分割模型[101]。表7总结了不同方法[91]、[94]、[97]、[102]、[103]在TuSimple数据集[104]上的评价结果，以便进行清晰的比较。表7还包括了之前最先进的方法，包括SCNN[105]、LaneNet[106]和Line-CNN[107]，以显示当前最先进方法的改进。表中粗体突出显示的值表示最佳结果。通过比较，Ripple-GAN是目前最先进的方法。

表7 基于TuSimple数据集的前视图像道路标志提取方法评价结果。

在这里插入图片描述