点击下方卡片,关注“自动驾驶之心”公众号
戳我-> 领取自动驾驶近15个方向学习路线
今天自动驾驶之心今天为大家分享一篇驾驶场景下车道拓扑推理的可解释pipeline。如果您有相关工作需要分享,请在文末联系我们!
也欢迎添加小助理微信AIDriver004,加入我们的技术交流群
论文作者 | Yanping Fu
编辑 | 自动驾驶之心
写在前面
作为一个整合了感知和推理的新兴任务,自动驾驶场景中的拓扑推理最近受到了广泛关注。然而,现有工作通常强调“感知胜于推理”:它们通常通过增强车道线的感知来提高推理性能,并直接采用MLP从车道查询中学习车道拓扑。这种范式忽视了车道本身固有的几何特征,并且容易受到车道检测中固有的端点偏移的影响。为了解决这个问题,提出了一种基于车道几何距离和车道查询相似性的可解释车道拓扑推理方法,名为TopoLogic。该方法在几何空间中减轻了端点偏移的影响,并在语义空间中引入了显式的相似性计算作为补充。通过整合这两个空间的结果,方法为车道拓扑提供了更全面的信息。最终,方法在主流基准OpenLane-V2上显著超过了现有的最先进方法(在TOPll上为23.9对10.9,在OLS subset_A上为44.1对39.8)。此外,提出的几何距离拓扑推理方法可以集成到训练好的模型中,而无需重新训练,从而显著提升车道拓扑推理的性能。
开源地址:https://github.com/Franpin/TopoLogic
当前行业背景&引言
近年来,自动驾驶领域见证了众多里程碑式的成就,并逐步从纯研究转向实际应用。在复杂的驾驶场景中,车辆需要感知车道和交通元素,并推理它们的拓扑关系(即车道连通性及与交通元素的对应关系),这为下游路径规划和运动控制提供了全面的信息。在端到端自动驾驶的发展趋势下,上述感知和推理被集成到一个任务中,被称为自动驾驶场景中的拓扑推理任务。这一挑战在自车规划和高精地图学习社区中引起了广泛关注。
拓扑推理任务最近受到了显著关注,因为它更接近实际需求。一些工作探讨了车道中心线表示和车道段表示,还有一些工作引入了标准定义地图(SDMap)来提供额外的学习线索。然而,现有工作主要集中在感知部分的增强,对推理部分的改进较少。不论具体方法如何,现有研究通常采用基础的多层感知器(MLP)直接从车道查询中学习车道拓扑。这一范式有其缺点:由于每个车道通过不同的查询独立编码,很难确保两个连接车道的端点完全重合,如图1(b)所示。相反,实际情况中两个连接车道的端点是完全重合的,如图1(a)所示。端点稍有偏移的车道可能会被MLP错误分类为不连接,这导致MLP容易预测出较少的车道拓扑,如图1(c)所示。

为了解决上述问题,本文引入了一种基于车道几何距离和车道查询语义空间相似性的可解释车道拓扑推理方法,称为TopoLogic。基于几何距离的方法旨在减轻端点偏移的影响,从而更稳健地学习车道拓扑。该方法首先计算车道之间的几何距离,然后使用一个可学习的映射函数将距离映射到连通概率。值得注意的是,对于给定的两个车道,它们的几何距离定义为一个车道的终点与下一个车道的起点之间的距离。这一距离本身可以作为一个强有力的标准:当距离在一定范围内时,预测的端点应被视为重合,车道是连接的;否则,则不连接。通过这种方式,车道拓扑推理对端点偏移更具容忍性,从而更准确。
值得一提的是,即使仅将几何距离方法作为后处理应用,而无需重新训练,SOTA模型在车道拓扑推理方面的性能也显著提升,如图1(d)所示。然而,当车道检测不准确时,完全基于几何距离的车道拓扑推理可能会导致不准确,如图4所示,因为车道几何距离的计算严重依赖于车道检测的准确性。为了弥补几何距离方法的不足,设计了一种基于车道查询相似性的拓扑方法作为补充。该方法将车道查询投射到高维语义空间中,并显式计算车道查询之间的点积以确定相似性,然后使用Sigmoid将这种相似性映射到车道拓扑上。计算车道查询相似性的方法补充了几何距离拓扑计算方法,并同样具有高度可解释性。最终的车道拓扑通过融合两种方法得到的拓扑矩阵获得。此外,车道拓扑还用于GNN,通过聚合相邻车道的特征来增强车道学习。

总之,本文贡献如下:
识别了当前拓扑推理研究的状态为“感知优于推理”,并揭示了当MLP仅用于车道拓扑推理时,车道拓扑容易受到车道检测中端点偏移的干扰。
提出了一种可解释的方法,称为TopoLogic,通过计算车道几何距离和在高维语义空间中车道查询的语义相似性来进行车道拓扑推理。
在主流基准OpenLane-V2上的广泛实验表明,方法在车道拓扑度量上显著优于现有的最先进方法。即使仅作为后处理步骤而无需重新训练,提出的几何距离方法也能显著提升已训练的车道拓扑推理模型的性能。
相关工作
车道检测
车道检测在自动驾驶中起着重要作用,是车道拓扑推理的基础方面。在车道检测领域,一些工作尝试在分割图上进行车道检测。此外,一些研究人员使用基于矢量的方法进行3D车道检测,然而,这些方法依赖于查询中预定的一系列Y轴坐标来预测3D车道,因此缺乏独立预测沿Y轴的3D车道位置的能力。在最近的研究中,TopoNet利用图神经网络(GNN)来增强车道中心线的感知,而TopoMLP则利用PETR进行中心线检测。LaneSegNet设计了一种车道注意力机制来加强对车道段的感知,而SMERF引入了标准定义(SD)地图作为额外输入来增强对车道中心线的感知。在本文工作中,通过GNN聚合相邻车道的特征来增强车道学习,这涉及计算车道几何距离和车道查询相似性。
车道拓扑推理
在车道拓扑推理中,准确理解车道拓扑对于自动驾驶中的有效导航和决策至关重要。一些方法已被提出来解决这一问题。STSU模型受DETR的启发,采用了神经网络架构,辅以MLP来建立线条连通性。在此基础上,Can等引入了最小循环查询来细化中心线,确保重叠线条的准确排序,从而提高了精度。进一步的进展包括对中心线的感知和对车道段的感知。其中,CenterLineDet和TopoNet都将车道线视为顶点,并利用基于图的模型来更新车道表示和车道拓扑。然而,这些方法主要依赖于MLP生成邻接矩阵来表示车道拓扑。在本文工作中,分别基于车道之间的几何距离和高维语义空间中车道查询的相似性计算车道拓扑矩阵,然后融合它们形成最终的车道拓扑。几何空间和语义空间的融合丰富了模型对车道拓扑的理解,从而提高了驾驶场景分析和决策的性能。
3 方法
问题定义
给定由车辆的环视摄像头拍摄的图像,车道拓扑推理需要在鸟瞰图(BEV)中感知车道实例,然后推断这些车道实例之间的拓扑关系。增强车道实例的感知有助于车道拓扑的推理。车道实例被描述为一组有向车道线,表示为。每条车道线由一系列有序点组成,表示为 。车道实例之间的拓扑关系表示有向车道的连通性,它被描述为一个拓扑图,其中边集 。只有当车道 的终点连接到车道 的起点时, 中的条目 才为正。
总览
如图2所示,TopoLogic方法将车载相机的多视角图像作为输入。这些图像通过一个骨干网络处理生成多尺度图像特征。多尺度图像特征通过视图转换模块转化为BEV特征,然后传递到车道变形解码器以生成车道查询 进行车道检测。所提出的车道几何距离方法和车道相似性方法分别计算车道拓扑。最终,这两种拓扑被融合并输入到GNN中,以增强下一解码层中的车道线学习。

车道几何距离拓扑
车道几何距离矩阵。车道查询 可以通过车道头生成多个有向车道线。可以通过计算一个有向车道线的终点与下一车道线的起点之间的几何距离来评估这些车道之间的连通性。

其中, 是车道的几何距离,和都是车道线,表示车道和 之间的几何距离,表示车道线 的最后一个点,表示车道线 的第一个点。
距离到拓扑映射函数。在获得车道的几何距离矩阵后,需要将车道几何距离映射到车道拓扑。车道拓扑可以表示为一个范围在0到1之间的矩阵。零表示两条车道之间没有连接,而一表示两条车道之间有连接。这个映射函数需要捕捉以下概念:当输入 时,表示两条车道非常接近,输出 ,表明这两条车道很可能连接在一起。相反,当时,。受高斯函数的启发,可以设计一个可学习的映射函数,如下所示:

其中 ,是几何距离矩阵的标准差, 和 是可学习的参数。通过这种映射,可以得到如下的车道拓扑:

也存在一些满足标准的常用替代函数,例如高斯函数、基于Sigmoid的函数和Tanh函数,如方程6(a,b,c)所示。在图3中对它们进行了比较。显然,fours设定了一个更大的几何距离阈值来确定拓扑连通性,相对于、和,这使得车道拓扑对端点偏移更加稳健。表3中的消融研究也验证了这一观点。


车道相似性拓扑
基于车道线几何距离的车道拓扑推理在车道线检测准确时可以取得良好的效果。然而,由于这种拓扑推理方法严重依赖于检测到的车道线,因此车道线检测中的不准确性会干扰几何方法,导致错误的推理结果,如图4所示。

鉴于这种情况,通过计算高维语义空间中车道查询之间的相似性来进行车道拓扑推理。之间的相似性越高,车道之间的连通性越大,而相似性较低则表示缺乏连通性。最初使用两个不同的MLP对进行编码,然后通过计算两个编码结果之间的内积来表示相似性。最后,需要一个函数将之间的相似性映射到车道拓扑。鉴于车道相似性与车道拓扑之间的相关性,使用Sigmoid函数将车道相似性映射到车道拓扑。这个过程如下:

其中,,𝑆表示的相似性,,表示车道查询的数量。
车道-车道拓扑
基于车道线几何距离推理的车道拓扑和基于高维语义空间中车道查询相似性推理的车道拓扑都可以指示车道的连通性。这两种方法在车道拓扑推理任务中是互补的。在这种情况下,将这两种车道拓扑推理结果合并为最终且更准确的车道拓扑,使用可学习的系数如下:

其中,和 是可学习的参数,是最终的车道拓扑预测。
学习
类似于基于Transformer的网络,监督应用于每个解码层以迭代优化查询特征。TopoLogic的整体损失为:

车道检测损失 包括用于车道分类的focal loss和用于车道回归的L1损失。车道拓扑推理损失 仅包括对计算的损失。至于 的计算,由于它通过GNN增强以促进车道学习,通过 更新其可学习参数。
实验
数据集和指标
数据集 在 OpenLane-V2 数据集上评估了 TopoLogic,这是目前唯一为自动驾驶场景设计的大规模感知和拓扑推理数据集。该数据集分别由 Argogorse2 和 nuScenes 开发,提供了车道中心线任务和车道段检测任务的标注。OpenLane-V2 包含两个子集:子集A和子集B,每个子集包含1000个场景,具有2Hz多视角图像和标注。每个子集包括车道中心线、交通元素、车道拓扑以及交通元素与车道之间拓扑的标注。在子集A中,有七个视角作为输入,并额外提供标准定义地图输入,扩展了车道段的标注;子集B仅包含六个视角作为输入。
指标 OpenLane-V2 分别评估车道中心线和车道段的感知任务。
(1) 在车道中心线感知任务中,指标包括 通过在匹配阈值为 1.0、2.0、3.0 时平均弗雷歇距离来量化相似性。使用交并比 (IoU) 作为相似性度量,并计算不同交通类别的平均值。和分别计算车道之间和车道与交通元素之间的拓扑矩阵相似性,车道中心线的总体评估指标记为 OLS。OLS 计算方式为 ,其中 f 是平方根函数。
(2) 在车道段感知任务中,采用 LaneSegNet 提出的指标评估车道段感知。这些指标包括车道段距离 、相应的平均精度 和 ,mAP 计算为 和 的平均值。车道段拓扑指标记为 。对于中心线,OpenLane-V2 有两个版本可用于评估 。对于车道段,OpenLane-V2 有版本 v2.0.0 和 v2.1.0 用于评估 。由于感知的最终目标是推理,拓扑指标应该受到更多关注。此外,本文修改主要涉及车道拓扑推理,因此主要关注车道拓扑指标和。
实现细节
特征提取器 所有图像都调整为 1550 × 2048 的相同分辨率。为了可重复性,利用了 TopoNet、SMERF 和 LaneSegNet 模型的官方实现。两种模型都使用在 ImageNet 上预训练的 ResNet-50 主干网络与特征金字塔网络 (FPN) 配对,以提取多尺度特征。输出通道数设为 256。采用 BEVformer 编码器中的视图转换模块将多尺度特征转换为 BEV 特征。BEV 网格的大小设置为 200×100。TopoLogic 的配置相同。
车道检测器 使用 Deformable DETR 进行车道线检测。查询的数量设置为 200。在通过 Deformable DETR 的每个解码层后,查询通过使用车道拓扑矩阵的 GNN。通过设置参考点来预测车道线的偏移,每条车道线由 11 个三维点组成。对于 LaneHead,分类头采用三层 MLP,结合 LayerNorm 和 ReLU 以预测车道线的置信得分。回归头是结合 ReLU 的三层 MLP,用于预测车道线的 11×3 偏移。对于车道检测损失 Ldetl,分类部分的权重为 1.5,回归部分的权重为 0.025。
车道拓扑Head 车道拓扑Head由车道几何距离预测器和车道相似性预测器组成。对于车道几何距离预测器,首先计算前一条车道线的终点和下一条车道线的起点之间的几何距离,以获得 200×200 的距离矩阵。然后通过可学习的映射函数将距离矩阵映射为车道拓扑矩阵,其中 α、λ、σ 的大小为 1×1,σ 是 x 的标准差,α、λ 是可学习参数,α 初始化为 0.2,λ 初始化为 2。对于车道相似性的计算,给定 200×256 的车道查询,通过两个不同的三层 MLP 进行编码。然后计算编码结果之间的相似性,得到 200×200 的车道相似性矩阵。通过 Sigmoid 将相似性矩阵转换为车道拓扑矩阵。使用可学习的系数将两个车道拓扑矩阵融合为最终的车道拓扑,系数初始化为 1,大小为 1×1。
训练 使用 AdamW 优化器训练 TopoLogic,权重衰减为 0.01,初始学习率为 2 ×10−4,采用余弦退火调度器调整学习率。所有实验在 8 个 NVIDIA RTX 3090 GPU 上进行训练,共 24 个 epoch,批量大小为 2。
与现有方法的比较
车道中心线 将 TopoLogic 与现有的最先进方法如 STSU、VectorMapNet、MapTR、TopoNet、SMERF 在车道中心线上的表现进行了比较。表1展示了在 subset_A 和 subset_B 数据集上的结果。在没有任何附加的情况下,本文方法达到了最先进的性能。与 TopoNet 相比,本文方法在检测准确性上取得了不错的成绩(在 subset_A 上为 29.9 v.s. 28.6,在 subset_B 上为 25.9 v.s. 24.4),特别是在 TOPll(在 subset_A 上 v1.0.0 版本为 18.6 v.s. 4.1,v2.1.0 版本为 23.9 v.s. 10.8)上有显著的提升,这表明了车道拓扑推理的得分。OpenLane-V2 的总体评分 OLS 也有所提高(在 subset_A 上 v1.0.0 版本为 41.6 v.s. 35.6,v2.1.0 版本为 44.1 v.s. 39.8)。即使在使用 SDMap 的情况下,提出的 TopoLogic 仍然实现了最先进的性能,并在 TOPll 上有显著提升(v1.0.0 版本为 23.4 v.s. 7.5,v2.1.0 版本为 28.9 v.s. 15.4)。

车道段 同时,将 TopoLogic 与现有的最先进方法如 TopoNet、MapTR、MapTRv2、LaneSegNet 在车道段上的表现进行了比较。表2显示,本文方法在车道段检测的平均精度(mAP)上较 LaneSegNet 有所提升(33.2 v.s. 32.6)。此外,拓扑推理得分 TOPlsls 也有显著提高(v2.0.0 版本为 22.0 v.s. 8.1,v2.1.0 版本为 30.8 v.s. 25.4)。

消融研究
研究了 TopoLogic 的几个重要组成部分,并在 OpenLane-V2 subset_A 上进行了消融实验。以下文本中,采用最新的 v2.1.0 版本的评估指标进行评估。
映射函数的设计 研究了不同映射函数在车道几何距离到车道拓扑转换中的效果。表3显示,本文设计的可学习映射函数在将车道线的几何距离映射到车道拓扑方面,比基于 sigmoid、tanh 和 Gaussian 函数的映射函数表现更好。在车道拓扑推理得分和中心线得分方面表现最佳(DETl 分别为 29.9 v.s. 28.9 v.s. 28.7 v.s. 27.6,TOPll 分别为 23.9 v.s. 21.7 v.s. 19.1 v.s. 15.1)。

车道拓扑推理方法 研究了不同车道拓扑计算方法对车道拓扑推理的影响,特别是使用 MLP、车道查询相似性和几何距离的方法。表4 中的结果表明,结合车道几何距离和车道查询相似性计算的车道拓扑方法,在 TOPll 上取得了最佳结果(23.9 v.s. 20.1 v.s. 12.9 v.s. 10.8),并且在车道线检测得分 DETl 上也表现最佳(29.9 v.s. 28.6 v.s. 28.1 v.s. 27.8)。这表明,通过这两种方法融合得到的拓扑也可以通过 GNN 特征增强来提高车道中心线的学习。

几何距离方法的后处理模式 研究了几何距离方法作为后处理模块在训练良好的模型上的有效性。在表5 中,通过分别在已经训练好的 TopoNet、SMERF 和 LaneSegNet 上添加后处理进行了实验。结果表明,本文提出的基于车道几何距离计算车道拓扑的方法可以集成到训练良好的模型中,而无需任何额外修改,并且可以显著增强车道拓扑推理的性能(TopoNet 上为 22.3 v.s. 10.9,SMERF 上为 26.2 v.s. 15.4)。

定性分析
如图5所示,对 TopoLogic 和 TopoNet 进行了定性比较。具体来说,选择了两种交通场景进行分析,并对车道线检测和拓扑推理的结果进行了可视化。第一行显示了真实场景的多视角输入,第二行展示了 TopoLogic 和 TopoNet 的车道检测结果以及真值。值得注意的是,TopoLogic 在车道线检测方面显示出了优越的准确性。

车道图 由于拓扑推理的内在复杂性,直观地表示结果具有挑战性。为了解决这个问题,如图5第三行所示,构建了一个车道图,其中节点代表车道线,它们在图中的相对位置与车道线的相对位置一一对应。这个布局增强了车道线检测结果之间的连接,并促进了后续分析。此外,使用有向边表示车道拓扑,其中红色表示错误预测,蓝色表示缺失预测。TopoLogic 在各种交叉路口场景中表现出色,展示了比 TopoNet 更显著的拓扑图性能。
结论
本文揭示了在车道拓扑推理任务中使用传统 MLP 的局限性,并提出了 TopoLogic,它首次采用了一种可解释的方法进行车道拓扑推理。TopoLogic 通过设计的函数映射车道线端点的几何距离,并融合在高维语义空间中的车道查询相似性来推理车道拓扑。在大规模自动驾驶数据集 OpenLane-V2 基准测试上的实验表明,TopoLogic 在复杂场景中的拓扑推理方面显著优于现有方法。
局限性 由于 GNN 仅在聚合相邻车道的特征以增强当前车道的学习中起作用,本文提出的方法显著提高了车道拓扑的性能,但并没有大幅提升车道检测的效果。因此,未来的工作将重点放在利用精确的车道拓扑进一步增强车道学习。
参考
[1] TopoLogic: An Interpretable Pipeline for Lane Topology Reasoning on Driving Scenes
投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!
① 全网独家视频课程
BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习)

② 国内首个自动驾驶学习社区
国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

③【自动驾驶之心】技术交流群
自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)
④【自动驾驶之心】全平台矩阵