车道图新方案!LaneGAP:基于路径的在线车道图构建(华科&地平线)

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心【3D目标检测】技术交流群

后台回复【3D检测综述】获取最新基于点云/BEV/图像的3D检测综述!

摘要

在线车道图构建是自动驾驶中一项很有前途但很有挑战性的任务。以前的方法通常在像素或分段级别对车道图进行建模,并通过逐像素或分段连接来恢复车道图,这会破坏车道的连续性。Hu-man驾驶员专注于沿着连续完整的道路行驶,而不是考虑车道碎片块。自动驾驶车辆还需要车道图中的特定路径指导来进行轨迹规划。作者认为,表示交通流量的路径是车道图的基元。受此启发,作者建议以一种新颖的路径方式对车道图进行建模,这种方式可以很好地预测车道的连续性,并对交通信息进行编码以进行规划。作者提出了一种基于路径的在线车道图构建方法,称为LaneGAP,该方法通过Path2Graph算法端到端学习路径并恢复车道图。作者定性和定量地证明了LaneGAP优于传统的基于像素和基于片段的方法。丰富的可视化显示LaneGAP可以应对各种交通状况。

介绍

车道图包含详细的车道级交通信息,用于为目标规划提供特定路径的指导,即自动驾驶车辆可以根据车道图追踪路径,作为可靠的先验规划。车道图传统上是通过离线地图生成pipeline构建的。然而,自动驾驶对车道拓扑结构的时效性要求很高。因此,使用车载传感器(如摄像头和激光雷达)在线构建车道图具有很大的应用价值。

一个直观的解决方案是以像素方式对车道图进行建模,并采用先分割后矢量化的范式。例如,HDMapNet[18]预测了密集鸟瞰图(BEV)特征的分段图和方向图。然后,它使用形态学细化算法从粗分割图中提取骨架,并通过用预测的方向图贪婪地跟踪单像素宽度的骨架来提取图拓扑。逐像素建模需要启发式和耗时的后处理,并且在复杂的拓扑结构中经常失败(见下图1第4行)。

b9e264dea66ca167d86e5164d509717e.png

车道图也可以分段方式建模[5],该方式将车道图在连接点(即合并点和分叉点)处拆分为车道块,并预测块间连接矩阵。基于连接,将片段链接并合并到车道图中。但是,分段建模会破坏车道的连续性。车道块的对齐是一个具有挑战性的问题,尤其是在复杂的道路交叉口。逐段建模生成难以感知的碎片块(例如,下图2(b)中的)。

作者认为路径是车道图的基元。人类驾驶员将注意力集中在连续完整的道路上,而不是考虑车道碎片块。自动驾驶车辆还需要车道图中的特定路径指导来进行轨迹规划。连续路径在指示驾驶流向方面起着重要作用,而逐像素和分段建模可能无法合并像素和块进入连续路径(见上图1)。

基于此,作者提出了一种可选择的路径方式来建模车道图。作者使用所提出的Graph2Path算法将车道图解耦为一组连续路径,通过集合预测执行路径检测[7,21],并使用Path2Graph算法提取细粒度车道图。基于此路径模型,作者提出了一个在线车道图构造框架,称为LaneGAP,该框架将车载传感器数据输入到端到端网络以进行路径检测,并进一步将检测到的路径转换为车道图。作者将LaneGAP与像素模型方法HDMapNet [18]和逐块建模方法STSU [5]在挑战性的Nuscenes上[4]数据集进行了比较。其中涵盖了各种图形拓扑结构和交通状况。定性和定量分析,只有相机输入条件下,LaneGAP就可以达到最佳的图形构建质量,且以最快的推理速度运行。作者通过引入多模态输入,进一步提高了车道图构建的性能。作者认为,在路径级别上对车道图进行建模是合理和有前景的。希望LaneGAP能够作为自动驾驶系统的一个基本模块,推动下游运动规划的发展。作者的贡献可以总结如下:

  1. 作者建议以一种新颖的路径方式对车道图进行建模,这可以很好地保持车道的连续性,并对交通信息进行编码以进行规划。

  2. 基于作者的路径建模,作者提出了一种在线车道图构建方法,称为LaneGAP。LaneGAP端到端学习路径,并通过设计的Path2Graph算法构建车道图。

  3. 作者定性和定量地证明了LaneGAP相对于基于像素和基于片段的方法的优越性。LaneGAP可以应对不同的交通条件,尤其是对于具有复杂车道拓扑的道路交叉口。

相关工作

车道检测。车道检测只考虑预测和评估车道分隔线,而不考虑空间关系(并线和岔路)。由于大多数车道检测数据集只提供前视图图像,因此以前的车道检测方法[34,36,13,24,14,23]在有限的水平FOV中无法预测具有小曲率的线。Bezier-LaneNet[12]使用全卷积网络来预测由4个Bezier控制点定义的Bezier车道。PersFormer[8]提出了一种基于Transformer的空间变换架构,并将2D和3D车道检测统一起来。

在线高精地图构建。 在线高精地图构建可以被视为车道检测的高级设置,由自车的视野感知范围的局部360◦ 中具有各种特征的线和多边形组成。通过先进的2D到BEV模块[30],以前的在线高精地图构建方法将其应用于转换后的BEV特征的实际分割任务[27,38,19,28,26,29]。为了构建矢量化的语义HD地图,HDMapNet[18]遵循分割-然后向量化范例。为了实现端到端的学习[7,40,11] ,VectorMapNet [25]采用了由粗到精的两阶段pipeline,并利用自动回归解码器来顺序预测点。MapTR[21]提出了统一的置换等价建模,以利用语义HD图的无向性,并设计了一个并行的端到端框架。

道路图的构建。 从遥感数据(例如航空图像和卫星地图)中提取道路图已有很长的历史。许多工作[31,39,2,17,3]将道路图作为一个像素级分割问题,并利用形态学后处理方法提取道路图。RoadTracer [1]采用迭代搜索过程逐步提取图的拓扑结构。有些工作[10,35,37,20,32]遵循这种顺序生成范式。

车道图构造。 传统的车道图是基于航空影像和多步训练的离线pipelien构造。[16]首先训练一个分段模型来提取非交叉口区域的车道,然后枚举这些不相交车道之间的对,并用训练好的转向车道验证模型验证连通性。通过训练一个额外的转弯车道分割模型来完成车道图的绘制。最近,STSU [5]致力于利用车载单目前置相机构建在线车道图,将车道图建模为一组由交叉点分割的不相交片段以及这些片段之间的一组连接。基于 STSU,[6]设计了一个网络,利用耗时离线处理提取的最小圆,进一步监督网络在有限视场感知范围内生成车道图。

与上述工作不同的是,作者专注于在具有挑战性的在线环境下构建车道图[18,21,25] ,即基于车载传感器的宽泛360 ° 视野感知,可面对不同的交通条件和拓扑结构。与以往的建模方法不同,将路径作为车道图的原始模型,并以一种新颖的路径方式对车道图进行建模。

方法

在本节中,作者首先描述如何将有向车道图转换成一组有向路径。然后介绍了在线路径检测框架。最后作者描述如何将路径转换回车道图。作者的方法概述如下图3所示。

6369400539a367f417028a154cd5fb76.png

3.1. Graph2Path

提出了一种简单的 Graph2Path 算法,根据车道图中编码的方向和连接信息,将有向车道图转换成一组路径。Graph2Path 的伪代码显示在Alg 1 中。

bc400a0920888bf88157bce06f7f3b91.png

给出车道图真值 G,它是自车周围局部图中典型的有向图,首先根据顶点的度和出度提取根顶点 和叶顶点 。然后作者将根顶点和叶顶点配对(Alg 1中的第2行到第9行)。对于每个顶点对,使用深度优先搜索(DFS)算法来寻找从根顶点到叶顶点的有效路径 v 路径(Alg 1的第10至17行)。最后,作者可以将真值有向车道图 G 转化为一组有向路径 ,其中 M 是真值路径的个数。

3.2.路径表示和学习

受到先进的集合检测方法的启发[7,40] ,作者提出了一个端到端网络 LaneGAP,以在单阶段同时预测所有路径,如上面图3所示。作者的网络包括一个编码器,编码来自车载传感器数据的特征,和一个基于查询的Transformer解码器,通过解码一组路径 从编码的特征执行集检测。为了参数化路径,作者使用了两种类型的表示,Polyline 和 Bezier,Polyline 在描述路径时提供了很高的灵活性,而 Bezier 提供了更平滑的表示。

折线表示法。 多边形表示将任意有向路径建模为一组有序的 Np 点 V 路径:

b1784ae8dcbf19990438f05216498cb8.png

作者直接回归折线点并利用可变形注意力[40]来利用每个折线路径的局部信息,其中键和值是沿着折线路径的局部特征。

Bezier表示。 Bezier 表示将有向路径建模为 控制点的有序集 V 路径 ,,。

Bezier 是一条参数曲线,其中直线上的点 B 可由控制点的加权和 V 路 Bezier:

c5c2ee1b0b9876facceb9a0ef6d2fbb0.png

给定 Bezier 控制点集合 V 路 Bezier 和采样区间集合 ,,, ,作者可以计算曲线 ,, ,带有矩阵乘法:

34e8c88d1f3b7c7102ba7f14cfcb603d.png

其中权矩阵 Γ 是一个 k × Nb 矩阵,,。为了能够利用离线控制点沿着 Bezier 路径的局部信息,作者对 Bezier 路径进行采样,得到基于 Eq 的在线点 B。2并执行变形注意,其中键和值是沿着 Bezier 路径取样点 B 周围的局部特征。作者把这种设计称为贝塞尔可变形注意力,它使变形解码器能够沿着Bezier路径聚合特征。

学习。 利用上述路径表示,作者可以将预测的路径转化为路径上点数不变的有序点集,其中 ,, 作者修改了文献[7]中使用的二部匹配损失来适应路径检测设置:

989eda4e64d16d159757e68be68ee7ba.png

其中 σ 是一组预测路径和一组匈牙利算法计算的真值路径之间的最优分配,c_i 是目标类标签,σ,是[22]中定义的分类损失。在匹配的预测路径 V 路径 σ (i)和采样的地面真实路径 V 路径 i 之间利用 L1损失。

3.3. Path2Graph

预测的连续路径编码了足够的交通信息,可以直接应用于下游运动规划。为了进一步恢复车道拓扑的图形结构,提取合并和分叉信息,作者利用设计的 Path2Graph 算法将预测的路径 转换为有向车道图 G,如 Alg2.将路径离散化为点序列 。

将离散化后的点视为顶点,将连续点之间的邻接关系视为顶点的边。作者将这些顶点和边添加到有向图中(Alg 2中的第4行到第11行)。.在一条路径上的有向图 G 中注册的顶点可能与其他路径上的顶点有空间重叠。为了去除 G 的冗余,作者将重叠的顶点合并到一个顶点中(Alg 2中的第13行)。

94baee2cf6b0b344abe76b6873511177.png

实验

4.1 数据集

作者以具有挑战性的 nuScenes [4]数据集为基准,该数据集由1000个序列组成。每个序列采样在2Hz 的帧速率,并提供激光雷达点云和6个周围的相机RGB 图像,其中涵盖自车360度水平视场。该数据集以车道中心线的形式提供车道图,并涵盖不同的在线驾驶条件(例如,白天、夜晚、多云、雨天和遮挡)。对于车道图构建的在线设置,作者将 X 轴的感知范围设置为[ -15.0 m,15.0 m ] ,Y 轴的感知范围设置为[ -30.0 m,30.0 m ] ,并预处理后面的数据集[18,25,21]。作者在 nuScenes 训练集上进行训练,并在 val 集上进行评估。实验默认使用6个环视图图像进行。

4.2.度量

为了评估图拓扑的质量,作者采用 TOPO 度量[16]来度量整体有向图结构的正确性。此外,为了强调连接点附近的子图的质量,作者引入了一个新的度量,连接 TOPO,它专门评估有向车道图上的连接点周围遍历所形成的局部有向图的准确性。

TOPO 度量。 给定预测有向车道图 和有向车道图真值 G,对它们进行插值,使任意两个连通点之间的距离为0.15 m,得到预测有向车道图 ,和有向车道图真值 G = (V,E) ,其中 , 是插值点集,E,E 是编码方向和连通点之间的边集。对于 ,,当两个顶点之间的距离小于0.45 m 时,一对顶点被认为是可以匹配的,作者利用这些候选对之间的最大一对一匹配来找到最终的匹配顶点 , ,然后作者绕着这对顶点 , 的有向图小于7.5 m 来遍历这对顶点,得到 ,  上的子图 Sv 和 Sv。在预测子图 Sv 的顶点和地真子图 Sv 的顶点之间,计算了精度 , 和召回 , ,其中匹配部分遵循以前的程序,阈值为0.45 m。

最后,作者报告的 TOPO 准确率召回率定义为:。(4)路口 TOPO 度量。TOPO 度量关注的是整个有向车道图的拓扑正确性,它没有突出从交叉点穿越所形成的子图的正确性,而子图的正确性对于确定跨越不同车道的驾驶选择起着关键作用。为了弥补这一差距,作者提出了交界 TOPO 度量,它只报告交界子图的准确率召回率。给定地面真实车道图的非连接点,通过遍历距离连接点小于7.5 m 的有向图 , 得到一对子图(连接图,连接图)。对于每个子图对,作者计算精度 Pre (交叉,交叉)和召回 Rec (交叉,交叉)。无导向版本。上面的度量通过遍历有向图 , 来计算准确率召回率,忽略了前面的顶点。为了评估完整的连接,作者将有向图转换成反向图,并重复上面定义的两个度量的计算。

4.3.基线

实施细节。 作者比较了作者的逐路径建模与像素建模和分片建模。为了进行严格公平的比较,所有的方法都用6个环视摄像机图像作为输入进行训练和测试,并使用由 ResNet50[15]和 GKT [9]组成的相同编码器将输入的 RGB 图像转换为 BEV 特征。由于分段建模和路径建模都是通过回归分支来预测定位,为了排除密集像素上分类带来的量化噪声,UNet 形[33]分割模型在像素建模中的输出分辨率设置为400 × 200,这意味着网格大小为0.15 m (感知范围为60m × 30m) ,与图形插值大小相同。所有模型都被控制在可比较的参数大小,并训练了110个纪元,以确保收敛。作者在8个 NVIDIA GeForce RTX 3090图形处理器上进行了所有实验的培训,总批量为32个(包含6个视图图像)。唯一的区别在于专门为各自的建模设计的解码器。

像素建模。 在 HDMapNet [18]的基础上,采用带有 ResNet18编码器的 UNet 结构,输出具有两个分支的二值化分段图和方向图。同时,对分割图和方向图进行了交叉熵损失处理。然而,作者发现在(- 1,1)非正则化方向上应用 L2损耗训练方向图比在离散化方向上应用交叉熵损耗训练方向图获得更好的性能[16,39]。因此,在作者的比较,作者训练的方向分支分割模型与 L2损失的归一化方向图。

逐块建模。 作者通过严格遵循 STSU [5]来实现分段建模。发现原始的块检测解码器与作者的解码器相比性能较差。为了公平地比较建模和排除网络设计的影响,采用了与作者相同的体系结构。唯一的区别是,它预测连通性分类和片段,而不是路径。将 L1损失应用于匹配块,将交叉熵损失应用于连通性。

路径建模。 作者利用可变形注意力[40]作为Transformer的交叉注意力,并使用30点折线来表示路径,并利用路径沿途的特征,如第3.2节所述诉诸于可变形注意力。作者叠加6个解码器并直接回归(0,1)归一化坐标。L1损耗应用于匹配路径。辅助分割监督的路径建模。作者进一步引入 BEV 分割分支(如像素级建模)作为辅助监督,以增强 BEV 表示。注意,这个辅助分支在推断阶段不带来任何计算预算。

4.4.定量比较

表1比较了路径建模与像素建模和分段建模的精度、模型大小、 FPSnet、 FPS。所有的 FPSnet 和 FPS 都是在一台 NVIDIA Geforce RTX 3090图形处理器和一台24核 AMD EPYC 7402 2.8 GHz CPU 的同一台机器上测量的,在这台机器上,FPSnet 只用前向网络进行基准测试。

亮点。 路径建模在以最快的推理速度运行的同时,在连接点周围的子图和整个图上获得了较高的精度。设计的 Path2Graph 算法在将预测路径转换为有向车道图(从16.5 FPS 到15.6 FPS)方面的开销可以忽略不计。在辅助分段监控下,路径建模进一步提高了车道图的构建质量。路径智能和像素智能。

逐path和逐像素 由于分割模型的高分辨率输出,像素级建模在 TOPO 度量的整体车道图构造方面表现出可比的构造质量。然而,粗栅格化的分割输出和容易失败的后处理使得在连接点周围难以区分细粒度子图。如表1所示,

逐path和逐片段 路径建模在连接点附近的子图上表现出明显的优势(有向图的 F1提高3% ,无向图的 F1提高2.4%) ,而且速度提高了2倍。路径明智与片段明智。对所有指标(精度、召回率、参数大小、 FPS)进行路径建模,验证了所提出的连续性保持建模方法的有效性。

辅助分割监视的路径建模。辅助分段监督显著提高了结 TOPO 和 TOPO 度量,而不增加推理成本。

8981f523046424a038e7a0a0ca704607.png

4.5.定性比较

表1和图1比较了复杂车道图像的路径建模和像素建模以及分段建模。不同的交通条件: 图1第1行的晴天和多云,图1第4行的雨天,图1第5行的遮挡和夜晚。

亮点。 在极具挑战性的车道图上,路径建模显示出比像素和分段建模更好的车道图构造质量,很好地保持了车道的连续性。

逐path vs.逐像素。 如图1第2行和第4行所示,用于像素级建模的分割模型很难区分连接点子图周围的细粒度拓扑,而且后处理容易不能生成像样的矢量化车道图。由于作者的理性建模将每条路径作为一个整体进行学习,因此作者可以捕获具有严重重叠的细粒度拓扑,并保持车道的连续性。

逐path vs.逐片段。 分段建模取决于分段检测和连通性预测的准确性。如图1第1、2和4行所示,分段建模方法往往产生错误的连接或锯齿形件,难以在实际应用中使用。路径建模方法可以获取完整路径上的信息,从而获得更好的连续性和结果。

4.6.消融研究

作者消融的设计选择与24 epoch的路径(path)建模训练时间表,只有6个周视图图像作为默认输入,没有规范。并且作者只在有向车道图上报告交叉点 TOPO 和 TOPO。

模态。 表2结果表明,LiDAR 模态构建的车道图比视觉模态构建的车道图更为精确(交叉点 TOPO 的 F1高6.6% ,TOPO 的 F1高5.2%)。融合它们可以进一步提高性能。

6eaa8ef5a028ddebf6b93006764528a9.png

训练调度。 下表3明增加更多的epoch主要增加了 TOPO 度量,但对联合 TOPO 收益不大,特别是对联合 TOPO 的召回。110epoch训练的多模态实验进一步推动了车道图构造的性能。

41b0d67285aa1a98e70408d3099e849e.png

折线路径表示法。 如下表4所示,在24 epoch进度表下,随着 Polyline 建模分数的增加,性能也随之提高。通过对24 epoch 40点 Polyline 实验和110 epoch 30点 Polyline 实验的比较,发现直接增加 Polyline 点比增加训练时间更有利于连接 TOPO (54.6% F1比53.7% F1)。

147d6ad157ca8e0f87a413c5b39232f5.png

贝塞尔path表示法。下表5表明,将控制点的数量从3增加到5,可以提高结 TOPO 的2.5% F1和 TOPO 的3.9% F1,表明 Bezier 控制点太少不能准确地描述广义上的任意形状。将控制点的数量从5增加到10会导致精度下降。

d1b6d1821572503876813bcbbcdc1ee6.png

结论

本文提出了一种基于路径建模的在线车道图构造方法 LaneGAP。作者定性和定量地证明了 LaneGAP 相对于基于像素和基于片的方法的优越性。LaneGAP 可以作为自动驾驶系统的一个基本模块,为下游运动预测和规划提供便利,这些工作留待以后进行。

参考

[1] Lane Graph as Path: Continuity-preserving Path-wise Modeling for Online Lane Graph Construction

视频课程来了!

自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV感知、传感器标定、传感器部署、自动驾驶协同感知、语义分割、自动驾驶仿真、L4感知、决策规划、轨迹预测等多个方向学习视频,欢迎大家自取(扫码进入学习)

69491d70db456b61d160d842abced9c7.png

(扫码学习最新视频)

国内首个自动驾驶学习社区

近1000人的交流社区,和20+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、Occpuancy、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

b576ad329bfd2aed9f6a5f81efb7f19b.jpeg

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向;

034134956f73de138fbc13363cefbc37.jpeg

添加汽车人助理微信邀请入群

备注:学校/公司+方向+昵称

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值