DuMapNet | 百度地图采用,提升车道地图的精确度和覆盖范围 !

作者 | AI 驾驶员  编辑 | 智驾实验室

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心在线高精地图技术交流群

本文只做学术分享,如有侵权,联系删文

e94810c4bab3f81e9a114ff1b317e83e.jpeg

生成城市规模的车道 Level 地图面临着重大挑战,由于复杂城市环境(如车道标记模糊或缺失)的影响。

此外,一个标准的车道 Level 地图需要对车道的分组进行全面的组织,包括车道方向、样式、边界和拓扑,但这一点在之前的研究中并未得到彻底的探讨。这些障碍导致了人工标注劳动力的增加和高昂的维护成本。

本文克服了这些限制,并提出了一种名为DuMapNet的工业级解决方案,该方案以端到端的方式输出标准化的、矢量化地图元素及其拓扑。

为此,作者提出了一种分组车道预测(GLP)系统,通过精心定制基于 Transformer 的网络输出车道组的矢量化结果。同时,为了在挑战性场景(如道路磨损和遮挡)中增强泛化能力,以及提高全局一致性,作者提出了一个上下文提示编码器(CPE)模块,该模块利用空间邻域的预测结果作为上下文信息。

在大量实际世界的规模数据集上的实验证明了DuMapNet的优越性和有效性。

此外,DuMapNet已于2023年6月在百度地图中投入生产使用,支持超过360个城市的车道 Level 地图生成任务,同时成本降低了95%。这表明DuMapNet作为一个实际且具有成本效益的工业解决方案,适用于城市规模的车道 Level 地图生成。

1 Introduction

传统的地图生成解决方案通常成本高昂且劳动密集,因为它们需要经过培训的专家手动标注地理元素。为了在减少人力的情况下提高效率,利用计算机视觉的进步进行地图生成已经成为一种可行的途径。这些算法大致可以分为基于分割的方法、基于车道线检测的方法以及基于矢量的方法(Golovne等人,2013年;张等人,2017年;张等人,2018年)。特别是,基于分割的方法通常不是最优选择,因为它们经常需要一系列后处理策略,例如细化和拟合,将 Mask 转换为矢量化的地图。基于车道线检测的方法在地图元素类型的可扩展性和灵活性方面通常有限。尽管基于矢量的解决方案已经取得了令人称赞的结果,但它们在预测准确性、后处理逻辑以及处理复杂道路情况(如道路磨损和车辆遮挡)方面仍存在局限性。此外,这种车载方法通常受到计算能力和局部构造模式的限制,阻止了它们满足城市尺度车道级地图所需的精确性和全球一致性。

为了充分探索大规模车道级地图生成的范例,作者提出了一个名为DuMapNet的自动工业级离线解决方案。给定一个鸟瞰图(BEV)图像,DuMapNet可以将多段线样式和多边形样式的地图元素统一建模为一组点。为了显著提高在道路磨损、遮挡和复杂交叉口等困难场景的预测结果,以及帧间矢量化结果的连接,作者提出了上下文提示编码器(CPE)模块。通过使用当前BEV图像邻域的空间预测结果作为提示信息,CPE在大范围感受野内显著增强了预测结果在几何和类别上的一致性。为了避免传统多阶段制图方法的误差累积效应和泛化能力弱的问题,并考虑到标准化地图构建的要求,作者设计了分组车道预测(GLP),通过车道组多边形与车道线的相互约束输出车道组的矢量化结果,无需复杂的后处理逻辑。最后,为了实现端到端的大规模地图生成模式,作者开发了拓扑预测模块,该模块预测BEV图像之间的车道线拓扑关系,实现大规模地图关联。作者对研究界和工业界的主要贡献如下:

  • 潜在影响: 作者引入了DuMapNet,一个端到端的矢量建模框架,作为城市尺度车道级地图生成的工业级解决方案。DuMapNet已经在百度地图的生产中成功部署,支持超过360个城市的车道级地图生成,实现了95%的成本降低。

  • 创新性: DuMapNet代表了城市尺度车道级地图生成任务的新范式,实现了从鸟瞰图(BEV)图像到满足制图标准的矢量化结果的端到端预测。其创新性在于每个阶段,从统一的矢量建模、分组车道预测系统、上下文提示编码器到拓扑预测模块,使得车道级地图生成任务高度自动化且具有成本效益。

  • 技术质量: 在从百度地图收集的大型真实世界数据集上进行了广泛的定性和定量实验,证明了DuMapNet的优越性。DuMapNet在百度地图的成功部署进一步表明,它是城市尺度车道级地图生成的实用且健壮的解决方案。

2. DuMapNet

Preliminaries

车道级地图从BEV图像生成的任务定义如下:给定一个来自车载传感器的BEV图像作为输入,网络应该预测矢量化的地图元素。接下来,作者将描述数据准备和统一矢量化的过程。

数据准备。 与大多数使用多视图图像作为输入在BEV特征上操作的车载方法不同,遵循(Golovne等人,2013;Zhang等人,2017)的方法,作者的非车载方法建立在BEV图像之上,该图像是由多视图图像、点云数据和车辆姿态信息生成的。其主要优势在于两个方面:首先,可以充分利用区域全局信息,如几何平滑性约束、语义相关性以及全局精度一致性;其次,进行多次数据收集可以缓解诸如精度偏差和动态遮挡等不可避免的挑战。作者没有依赖繁重的标注人力,而是通过百度地图数据库以自动化的方式解决大规模标注问题。具体来说,给定一个分辨率的BEV图像,每个像素的空间分辨率为,它覆盖了米乘以米的区域,具有一定的地理坐标范围。首先,作者从数据库中索引该范围内的实例几何、标签和车道组ID。其次,基于车道组ID,将实例几何按车道组粒度组织成列表格式,并映射到像素坐标系统。同时,作者计算每个车道组内包含的所有实例的最小外接矩形以创建组多边形。最后,基于BEV图像之间的空间关系,向地面真相中添加邻域ID。为了更好的理解,作者在GitHub上发布了一个演示供参考,地址为https://github.com/XiyanLiu/DuMapNet。

统一矢量化。 作者为每个局部陆地区域的核心地理元素定义了一个统一的矢量化表示。正式地,给定一个BEV图像,作者将其对应的车道级矢量化表示为,其中表示局部陆地区域中的车道组数量。每个车道组由一组地理元素和元素样式组成,其中是一个具有种元素样式的独热向量。因此,作者将车道组表示为,其中是车道组中的元素数量。接下来,每个元素实例的点集表示为,其中是点的数量,表示每个点的坐标。

Overall Architecture

城市规模的车道 Level 地图生成本质上是复杂的,需要对车道分组进行全面的组织,而现有方法仅生成车道分组的部分元素。同时,DuMapNet 是首个端到端的解决方案,用于实现城市规模的车道 Level 地图生成,实现了实际且有效的工业收益。

具体来说,图2展示了作者提出的DuMapNet的总体架构。为了获得城市规模的车道 Level 矢量地图,DuMapNet采用滑动窗口方法按照之字形扫描序列处理整个陆地面积。模型的输入包含两部分:鸟瞰图(BEV)图像和上下文提示。具体而言,BEV图像是通过前述数据准备过程获得的,提供了局部陆地面积的丰富外观特征。作者使用了一个图像编码器,包含一个 Backbone 网络和特征金字塔网络(FPN),从BEV图像中提取BEV特征。同时,为了使相邻陆地面积的车道 Level 矢量预测保持空间连贯性,作者提出将相邻扫描区域的预测矢量地图作为DuMapNet的附加输入。作者进一步定制了一个上下文提示编码器(CPE),以实现对相邻扫描区域预测的有效编码。此外,作者设计了一个 Query 组合,包含一系列用于车道线预测的分层 Query ,一个前景分割 Query ,以及一系列用于车道组多边形预测的 Query 。在解码器中,所提出的 Query 组合与来自CPE的BEV特征和上下文提示嵌入进行交互。最后,作者构建了多个任务预测头,以促进各种预测,其中预测包括矢量化的元素和它们的拓扑结构。

图2. DuMapNet的总体架构。DuMapNet使用滑动窗口方法处理整个城市规模的陆地面积。对于每个局部区域,利用图像编码器从BEV图像中提取图像特征。同时,作者提出了一种新颖的上下文提示编码器(CPE)来编码相邻扫描区域的预测。为了实现分组车道预测(GLP),作者精心定制了关键的网络组件,包括 Query 、解码器和预测头。因此,网络能够生成包含矢量元素及其拓扑的矢量地图。此外,还生成了两个辅助预测:使用组多边形有助于车道组的组织,而前景分割则有助于提高车道点的定位。详细说明请参见第2节。

Contextual Prompts Encoder (CPE)

受到基于提示的视觉模型(Liu et al., 2019; Liu et al., 2019; Liu et al., 2019)近期成功的启发,作者提出的CPE采用了一种简单而有效的架构来编码相邻土地区域的矢量化结果的几何和语义信息,在滑动窗口操作期间为当前土地区域的矢量化提供上下文线索。正式地,作者定义

其中表示一组相邻土地区域。表示与解码器中间层的特征交互的提示嵌入。其中分别表示预测的总组数、每组中的元素实例数以及每个实例中的点数。

CPE的架构如图2所示。具体来说,作者采用共享的多层感知机(MLP)网络对每个元素的预测样式类型进行编码,作为语义编码。对于几何信息,作者对元素点的坐标执行共享的位置编码子网络。该子网络由不同频率的正弦和余弦函数以及随后的MLP组成。最后,将几何和语义线索连接起来,然后输入到MLP中,生成最终的提示嵌入。此外,作者在CPE中引入了一种记忆机制来实现长期的特征依赖。具体来说,作者采用先进先出(FIFO)队列作为记忆库,用于存储先前帧局部土地区域的提示嵌入。记忆库高效地存储剩余个相邻帧的提示嵌入。这些嵌入随后在CPE中使用加权求和操作进行聚合。分配给每个存储帧的权重是由CPE中的中间层生成的可学习参数,使模型能够自适应地关注相关信息。这种设计有效地减少了提示信息中的噪声(例如,提示可能包含预测误差),同时保持了最小计算开销的轻量级架构。记忆库是CPE的核心模块,直接反映了其性能。最后,通过学习存储嵌入的聚合来获得。

Group-wise Lane Prediction (GLP)

车道组指的是共享相同特性(例如,相同的风格或指向共同的目标或目的地)的车道集合。实际上,车道组对于路径规划和导航至关重要,因为它们有助于理解复杂的道路结构。然而,预测精确的车道组是具有挑战性的,因为它需要复杂的语义分析和几何推理。特别是,要定位车道实例的端点,需要了解同一组中其他车道的风格和拓扑变化。为此,作者 Proposal 使用一个多边形,即组多边形来勾勒出车道组的边界。作者在网络架构中进一步引入了一个辅助任务来预测组多边形。由于所有预测的地图元素点都位于组多边形内,作者 Proposal 增加一个点在多边形内的损失,以促进车道组的预测。

在本节中,作者将介绍关于车道组预测(GLP)的关键组成部分,包括 Query 设计、解码器架构和预测头。

** Query 。** 作者设计了一个 Query 组合,以灵活地编码结构化地图信息,并为地图元素和组多边形学习进行分层双向匹配。具体来说,作者扩展了MapTR(Liu等人,2019)中的分层 Query 方案,并定制了两套 Query ,分别是元素 Query 和组多边形 Query 。这两种类型的 Query 采用相同的分层 Query 方案,有效地编码实例 Level 和点 Level 信息。此外,作者引入了一个额外的前景-背景(FG) Query ,用于辅助的语义分割任务。

解码器。 所有地图元素、组多边形和分割 Mask 同时使用统一的Transformer结构进行预测。解码器由几个级联层组成,每个层包括一个自注意力模块、两个交叉注意力模块和一个实例内自注意力模块。最初的自我注意力模块旨在让分层 Query 在整个特征空间内交换信息。随后的交叉注意力模块促进了分层 Query 与鸟瞰图(BEV)特征之间的交互。为了提高预测准确性和空间一致性,创新性地引入了额外的交叉注意力模块,使用上下文提示嵌入作为输入键和值与分层 Query 进行交互。最后,实例内自注意力模块允许同一实例内的点之间的交互,从而提高几何光滑度。最终,通过解码器处理后,分层 Query 有效地编码为组 Level  Query 嵌入,线 Level  Query 嵌入,以及一个前景嵌入。

预测。 对于预测车道线和车道组多边形,作者将地图元素和组多边形 Query 嵌入输入共享的分类分支和共享的回归分支,分别进行类型分类和几何属性回归。对于每个预测的实例,回归分支输出一个维度为的向量,表示个点的归一化坐标。

此外,为了增强分类和回归分支的性能,从而提高预测准确性和加速训练收敛,作者提出了一个前景分割分支。不是直接利用BEV特征进行分割,而是引入了一个单独的前景 Query ,与分层 Query 并行。经过传统解码网络和MLP编码处理后,前景 Query 嵌入与BEV特征交互生成分割图。

Topology Prediction

考虑到作者目标是以端到端的方式生成城市规模的车道 Level 地图,仅仅预测单帧BEV图像的矢量化是不够的。预测帧之间的拓扑关系对于作者这项任务来说是不可或缺的。为此,作者提出直接预测一个拓扑矩阵 ,该矩阵指示当前陆地区域中个元素实例与上下文陆地区域中个元素实例之间的连接。

受到(Wang等人,2019)的启发,作者将拓扑预测公式化为一个分类任务,其中拓扑矩阵作为解码器的额外输出产生。该架构在图2中概述,并在图3中具体说明。具体来说,作者采用与CPE类似的子网络来编码预测的地图元素,产生一个嵌入,它包含了实例的预测坐标和类别信息。随后,作者计算与提示嵌入之间的相关性,然后采用MLP生成拓扑矩阵。在推理过程中,根据它们之间的几何关系聚合车道线和车道组多边形,有助于生成连贯的车道组配置。

6521d2205e06b0d38b7c49dcbd159fd9.jpeg

End-to-End Training

在训练阶段,对于每一帧,作者应用MapTR(宋等人,2019年)中的分层匹配方案来获得地图元素预测与 GT 值的配对,表示为。同时,作者采用相同的匹配方案来获得预测的组多边形与 GT 值的配对,表示为。

基于匹配结果以及地图元素与其组多边形之间的对应关系,作者采用多个特定任务的损失函数以端到端的方式训练作者提出的DuMapNet:

其中和分别表示学习地图元素和拓扑的损失。此外,表示学习组多边形的损失,而是一个额外的点在多边形内的损失,以促进组内元素的组织。最后,作者引入一个前景分割损失来增强车道点的定位。,,,,是在不同损失之间取得平衡的超参数。接下来,作者将为每种类型的损失函数提供详细说明。

地图元素学习。 对于每个地图元素实例,作者分别采用对齐的Focal Loss 进行风格分类和L1回归损失 进行点定位。这里作者遵循MapTR(宋等人,2019年)的方法,并进一步应用方向损失  来将预测的车道段方向与 GT 值对齐。因此,训练地图元素的损失表示为:

此外,受到Stable DINO(邵等人,2019年)的启发,作者将对齐的Focal Loss适应到中,以增强分类得分与定位质量之间的对齐。如方程(4)所示,第个匹配对中预测与相应 GT 值之间的L1距离被用作位置度量,以监督正例的训练概率。因此,分类损失可以表述为:[此处原文可能有遗漏,未提供方程(4)的内容]

分类损失. 作者的总分类损失定义为:

其中  是第  个预测图元素的预测概率。 和  分别表示正元素和负元素的数量。此外,对于 ,作者应用与  相同的损失函数来学习群体多边形。

拓扑学习. 作者将拓扑关系定义为二分类任务,即连接与否。由于连接元素的数量显著少于不连接元素的数量,作者应用Focal Loss来监督拓扑关联矩阵的预测。

群体引导的辅助监督. 作者利用群体多边形为学习高质量群体车道线提供辅助监督。具体来说,这种辅助监督是基于以下观察设计的:车道线的所有点都应该位于其对应群体多边形内或边界上。因此,作者提出了一个点在多边形内的损失:

其中  是点  到车道群体多边形  任何边缘的最短距离。在训练阶段,作者采用 GT 群体多边形来惩罚位于其群体多边形外的预测点。在推理阶段,作者仅使用预测的群体多边形来检查地图元素的位置。

分割引导的辅助监督. 为了提高向量化预测的准确性,作者选择二进制交叉熵和Dice损失的组合来计算预测前景 Mask   与从 GT 车道线生成的 GT  Mask   之间的损失:

翻译为:

请注意,这里的"BCE"代表"Binary Cross-Entropy",通常中文直接使用其英文名称或简称"交叉熵损失","Dice loss"则直接翻译为"Dice损失"。公式中的符号一般保持不变,按照原文直接引用。

3. Experiments

Experimental Settings

数据集。 如前所述,DuMapNet已经被部署在百度地图上,支持超过360个城市。为了评估DuMapNet的有效性,作者收集了一个大规模的真实世界数据集,

图3. 拓扑预测。拓扑矩阵作为解码器的附加输出,用于指示当前土地区域内元素实例与上下文土地区域内的元素实例之间的连接。

DuLD,包括六个城市(北京、广州、长春、常州、重庆和乐山)的鸟瞰图(BEV)图像和 GT 数据。这些城市因其不同的城市规模和地理特征而被选中。来自北京、广州、长春和常州的数据集按照9:1的比例被划分为训练集和验证集。同时,来自重庆和乐山的数据作为测试集,用于评估模型的性能。统计上,DuLD包含张图像,跨度公里,每张图像的分辨率为像素。更多细节可以在表1中找到。重要的是,为了研究更大规模数据的好处,作者引入了包含一百万配对图像和相应 GT 数据的DuLD-L数据集,并在该扩展数据集上评估DuMapNet的性能。

80a007d1e88becfb278e2e02f7817729.jpeg

评估指标。 作者采用召回率(R)和精确度(P)来评估地图构建在实例 Level 的质量。评估考虑类别一致性、端点距离和重叠,以确定 GT 和预测中的一对车道实例是否匹配。此外,对于闭合形状的元素,如斑马线,采用类别一致性和IoU()。具体来说,类别一致性要求实例属于同一类别。端点距离要求实例的起点和终点之间的L2距离应分别小于3米。重叠考虑实例之间的平行距离。在计算重叠时,首先将预测实例和 GT 分为多个以1米间隔的段。然后计算段之间的投影距离。如果投影距离小于阈值的段比例超过阈值,预测实例将被视为真正例(TP)。在以下实验中,作者使用来表示在精确度下的召回率,阈值和。较低的阈值和较高的阈值意味着更严格的精确度要求。

实现细节。 作者的模型使用16个NVIDIA Tesla V100 GPU进行训练,批处理大小为16。采用AdamW(Kingma和Ba,2015)优化器,权重衰减为0.01,初始学习率设置为,采用余弦衰减。输入图像的分辨率为像素。对于作者的架构,作者采用ResNet50(He等人,2016)和HRNet48(He等人,2016)作为主干网络。默认的实例 Query 数、点 Query 数和解码器层数分别为50、50和6。至于损失权重的超参数,作者将、、、和分别设置为1、1、0.2、0.15和100。在单个NVIDIA Tesla V100 GPU上以批处理大小1测量推理时间。

Evaluation

与 Baseline 方法比较。作者将DuMapNet与基于分割的方法(Zhu等人,2017)以及其他基于向量化的方法(He等人,2016;Wang等人,2017)进行了比较。如表2所示,基于向量化的方法在没有复杂后处理逻辑的情况下取得了更好的结果。特别是,在相同的ResNet50设置下,作者的DuMapNet比现有最佳方法有了很大的提升(当时,提升了+2.66%),这表明了作者的方法的有效性。令人惊讶的是,通过用HRNet48替换 Backbone 网以获得增强的特征表示,作者的方法进一步提升了4.99%。此外,作者的方法在百万训练数据上达到了73.28%的召回率,这表明随着训练数据量的增加,作者的方法可以取得更大的优势。

0c5bea88e4fbcaa7fb68031d72189c68.jpeg

不同评估阈值的定量比较总结在表3中。从结果来看,DuMapNet在所有情况下都带来了显著的改进。以为例,DuMapNet在DuLD上取得了更好的性能,召回率提升了,这强调了作者方法在实现更优几何精度和保持类别一致性方面的能力。特别是,随着投影距离的减小,所有方法的性能都显著下降,但作者的DuMapNet下降幅度较小,这表明作者的方法更鲁棒,在更高精度水平下保持优越性能。

a6931248aba784e314ade4c400bf607a.jpeg

消融研究。在本节中,作者进行了广泛的消融研究,以系统地评估作者DuMapNet的关键设计。如表4所示,第I组是没有一系列设计的 Baseline 。从第I组和第II组来看,添加任务对齐的监督可以通过促进几何学习和类别识别之间的更好协同作用带来轻微的改进。第II组和第III组之间的进一步分析揭示了将实例内自注意力结合进来,在下带来了0.99的改进。从第III组到第IV组的转变,检查了添加分割引导的辅助监督的影响,所有指标都显示出明显的改进,特别是在更高的精度水平上。这一结果在意料之中,因为分割分支有助于更细粒度的像素级建模,增强语义理解并提高预测准确性。第V组的结果突出了所提出的上下文提示编码器(CPE)模块的重要作用,在很高的准确度水平()下,召回率显著增加了2.74%。这些发现表明,CPE通过利用来自当前BEV图像周围区域的空间预测结果,显著增强了跨越更广阔感受野的预测的几何和类别一致性。

128f12e17df1c4239b7d836e72015e9a.jpeg

泛化性分析。为了进一步证明作者方法的泛化性,另外选择了五个城市作为测试集。这些城市分布在中国不同的地区,如东北的哈尔滨和西北的西安,并且城市的大小也各不相同,上海是一个大型一线城市,而中山是二线城市。最后,共收集了5000张图像用于评估。实验结果如表5所示。一方面,DuMapNet在所有城市测试集上都优于现有最佳方法,证明了作者方法的有效性。另一方面,DuMapNet在五个城市之间的性能波动较小,显示出优越的泛化性。例如,DuMapNet-R50在五个城市之间的最大偏差为3.99%,而排名第二的模型,即GeMap的最大偏差为6.73%。

0306cb70095b31201db6209ce1c48c5a.jpeg

Visualization

图4和图5展示了DuLD数据集的定性结果。DuMapNet不仅在简单场景中表现良好,而且在交叉路口、道路磨损和遮挡等复杂场景中也能预测高质量的矢量地图元素。如图4所示,DuMapNet在车道召回率、车道准确度和端点准确度方面具有显著优势。例如,在图4的第二行中展示的,DuMapNet精确捕捉到了遮挡场景中车道线的几何形状和类别,避免了不必要的车道线预测。此外,图5提供了一个视觉比较,强调了组引导监督在准确预测端点位置方面的有效性,即使在具有微小视觉差异的场景中,如虚线和实线段。组引导监督还确保了同一车道组内车道线的端点正确对齐。此外,如图6所示,拓扑预测模块的实施使得可以在全局 Level 端到端地生成全面的城市场景。

7e92efdcd465b115c8ee8ce41d7f186c.jpeg 69716badda7876e515bfdd02285777f5.jpeg a7d25564606ea4ec75e64cbfe25b3156.jpeg

4. Related Work

在这里,作者简要回顾了与地图构建和车道线检测领域密切相关的工作。

Map Construction

随着深度学习和BEV感知(Han等人,2017年)的发展,地图构建正在从劳动密集型的标注任务转变为基于模型的密集预测挑战。基于分割的方法通过执行BEV语义分割来生成栅格化地图。为了构建矢量地图,HDMapNet(Li等人,2018年)采用两阶段方法,先进行分割然后通过后处理生成矢量实例。作为第一个端到端框架,VectorMapNet(Vaswani等人,2017年)使用自回归解码器按顺序预测点。MapTR(Chen等人,2017年)提出了一种基于并行端到端框架的统一形状建模方法,随后有许多工作(Chen等人,2017年;Li等人,2019年;Li等人,2019年)沿用了这一方法。MapVR(Li等人,2019年)应用可微栅格化到矢量输出上,进行精确且关注几何的监督。MapTRv2(Li等人,2019年)进一步引入辅助的一对多匹配和辅助密集监督以加速收敛。BeMapNet(Li等人,2019年)采用参数化范式,将地图元素构建为分段贝塞尔曲线。PivotNet(Chen等人,2017年)利用动态数量的关键点来建模地图元素,防止丢失重要细节。与现有工作不同,作者提出的DuMapNet利用相邻地图元素作为提示,指导当前帧中地图元素的生成,这可以增强地图元素的空间一致性。

Lane Detection

车道线检测在识别道路场景中的车道元素方面发挥着关键作用,可以被视为地图构建的子任务。LaneATT(Li等人,2019)利用了一种基于 Anchor 点的深度车道线检测模型。CondLaneNet(LaneNet,2018)采用了一种基于条件卷积和逐行公式化的条件车道线检测模型。GANet(Wang等人,2019)将车道线检测公式化为关键点估计和关联问题。BezierLaneNet(Bezier等人,2019)提出了一种基于参数贝塞尔曲线的方法,该方法可以建模车道线的几何形状。PersFormer(Bezier等人,2019)利用基于 Transformer 的空间特征转换模块,同时统一了2D和3D车道线检测。与这些主要关注车道元素的方法不同,作者提出的DuMapNet以统一向量化形式建模地图元素,不仅可以检测如车道这样的开放形状地图元素,还可以检测如斑马线这样的封闭形状元素。

5. Discussion

在部署DuMapNet之前,百度地图严重依赖劳动密集型的人工标注过程,这一过程涉及分割技术和复杂的后处理逻辑。这种方法显著增加了运营成本并降低了效率。DuMapNet的引入,现在在360多个城市投入运营,生产效率提高了二十倍,成本显著降低了95%。

尽管DuMapNet取得了令人印象深刻的成就,但仍有几个具有挑战性的问题尚未解决,需要进一步研究。例如,在存在大量静态障碍物的场景中,如停放车辆的冗长道路,模型的表现挣扎。这种状况破坏了性能,因为可见道路标记的缺失削弱了上下文提示编码器的有效性。为了应对这一挑战,整合多源数据可能是一个有效的途径。此外,从低精度来源生成合格的地图数据,如众包数据,提出了一个值得未来深入探索的有趣挑战。目前,利用众包数据的高时效性、广覆盖面和低成本进行地图更新代表了一个更合理的范式。例如,众包数据可以为准确性要求较低的元素提供及时更新,如风格变化,或者为动态变化如建设或临时道路封闭提供更新。

6. Conclusions

在本文中,作者提出了一种有效的工业解决方案,用于生成城市规模的车道 Level 地图。具体来说,作者将这项任务重新制定为一个矢量化建模任务,它以鸟瞰图(BEV)图像作为输入,并以端到端的方式输出标准化的、矢量化地图元素及其拓扑关系。

作者首次采用基于学习方法组织车道组,并通过所提出的组态车道预测(GLP)系统来处理这个问题,该系统通过在车道组多边形和车道线之间应用相互约束,输出车道组的矢量化结果,从而无需复杂的后处理逻辑。

为了在具有挑战性的场景(如道路磨损和遮挡)中提高泛化能力,以及提高帧间矢量化结果的连续性,作者提出了上下文提示编码器(CPE)模块,它利用来自当前BEV图像周围区域的空间预测结果作为上下文信息。在从百度地图收集的大型真实世界数据集上进行的广泛实验证明了DuMapNet的优越性。DuMapNet在百度地图上的成功部署显著提高了其性能。

自2023年6月推出以来,DuMapNet已服务于360多个城市,同时将成本降低了95%。

参考

[1].DuMapNet: An End-to-End Vectorization System for.

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

a44affb23220e5c1cec530d7582e83fc.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

8e4d1429141293b46435dda112213f4c.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

4f859772e649589ebfefab8218d6fbc8.jpeg

④【自动驾驶之心】全平台矩阵

3362b179db89ca76c8f70dd8c3d53084.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值