分割仍旧发光!Mask2Map:爆拉MapTRv2 近10个点~

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享在线高精地图的最新工作—Mask2Map!基于分割的全新框架,爆拉MapTR v2近十个点!如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心在线高精地图技术交流群

编辑 | 自动驾驶之心

写在前面 & 笔者理解

高精地图(HD Map)一直以来被认为是是保证自动驾驶车辆安全有效导航的关键要素。它们通过提供地图实例的详细位置和语义信息,促进精确的规划和障碍物避让。传统上,利用基于SLAM的方法离线构建的高精地图,涉及复杂的过程,需要大量的劳动力和经济成本。而且,这种方法在响应道路条件变化并提供及时更新方面存在局限性。所以,最近越来越多的论文开始研究如何基于学习来在线构造高精地图构建,专注于生成自车周围的局部地图。

论文地址:https://arxiv.org/pdf/2407.13517

早期的工作将地图构建视为一种语义分割任务,基于从各种传感器获得的BEV特征。它们预测了栅格格式中每个像素的类别标签,避免了生成精确矢量轮廓的复杂性。虽然这种方法提供了语义地图信息,但在捕捉不同类别的地图组件的精确关键位置及其结构关系方面存在不足。因此,其输出并不适合直接应用于下游任务,如运动预测和规划。为了解决这个问题,越来越多的研究者将 HD map 矢量化,能够直接生成矢量化的地图实体。常见的方法如下图1所示。

66d25233f744974ec9cfbb32969ae5d5.png

之前的工作主要分为三种思路:

  • 图1(a): 基于分割的解码方法,该方法涉及语义分割,然后使用启发式后处理算法生成矢量化地图。然而,这种方法需要大量的处理时间。

  • 图1(b): 基于检测的解码方法识别对应于各种实例的关键点,然后按顺序生成矢量化地图组件。但是,仅依赖关键点可能无法充分捕捉实例的多样化形状,从而阻碍了生成准确的高精地图。

  • 图1(c): 各种基于可学习查询的解码方法,这些方法通过并行从BEV特征中解码可学习查询,直接预测矢量化地图组件。由于初始可学习查询与给定场景无关,它们限制了同时捕获复杂场景中地图实例的语义和几何信息的能力。

在这篇论文中,作者介绍了一种新的端到端高精地图构建框架,称为Mask2Map。如图1(d)所示,Mask2Map通过利用分割掩码来区分BEV领域中不同类别的实例。所提出的Mask2Map架构包括两个网络:实例级掩码预测网络(Instance Level Mask Prediction Network,IMPNet)和掩码驱动地图预测网络(Mask-Driven Map Prediction Network,MMPNet)。最初,IMPNet从传感器数据构建多尺度BEV特征,并生成掩码感知查询,从全局角度捕获实例的语义特征。遵循实例分割模型Mask2Former的框架,作者设计了掩码感知查询,能够生成与BEV范围中不同类别的实例相关联的BEV分割掩码。随后,基于IMPNet提供的掩码感知查询,MMPNet动态地从BEV范围的局部角度预测地图实例的有序点集。

相关工作

BEV分割方法

BEV分割任务指的是利用传感器数据收集有关车辆周围静态环境信息的任务。该类分割方法通常从传感器数据中提取BEV特征,并使用静态场景的栅格化图像作为GT,在BEV领域执行语义分割。例如,Lift-Splat-Shoot (LSS) 将从多视图相机提取的特征转换为3D特征,使用预测的深度信息,然后通过聚合这些特征生成BEV表示。CVT 使用交叉视图注意力从透视图到BEV领域学习几何变换,使用相机感知的位置编码。BEVFormer 通过与空间和时间信息交互,通过预定义的网格状BEV查询统一BEV表示。BEVSegFormer 通过使用可变形交叉注意力模块,从不依赖于相机内参和外参的多视图相机特征中生成密集的语义查询,执行BEV语义分割。

矢量化高精地图构建方法

在线高精地图构建方法因其潜力而受到广泛关注,有可能取代自动驾驶中的高精地图,并为规划和定位提供有用信息。这些方法使用传感器数据实时预测自车周围的详细地图实例。例如,HDMapNet 使用带有BEV特征的语义分割模型和后处理方法来生成矢量化高精地图。然而,这种方法需要大量的计算时间。为了提高处理效率,引入了基于查询的方法,利用Transformer注意力解码场景并直接预测地图实例的有序点序列。VectorMapNet 引入了一个两阶段框架,首先检测地图实例的边界框,然后使用自回归解码器依次预测每个实例的点。MapTR 利用DETR的架构将地图实例表示为有序点集,并使用层次化查询对Transformer解码器进行编码。MapTRv2 进一步扩展了其能力,使用深度监督学习3D几何信息,并在透视视图和BEV上进行语义分割。MapVR 为每个地图实例生成矢量化地图,然后使用可微分光栅化器将其转换为光栅化地图,提供实例级分割监督。PivotNet 通过生成关键点的有序列表预测地图实例,这些关键点对于捕获地图组件的整体形状至关重要。

去噪训练策略

基于DETR架构的感知模型已经采用了基于Transformer架构的查询预测,通过二分匹配将GT标签分配给预测,以确保适当的监督。然而,这种分配有时会导致跨时期或层之间的匹配不一致。例如,不同的GT标签可能在不同的时期分配给相同的查询,从而导致收敛速度变慢和性能下降。为了解决这个挑战,DN-DETR 引入了去噪训练策略。该策略将从嘈杂的GT边界框派生的查询集成到DETR解码器的现有查询中,将预测这些GT边界框的任务分配给这些GT查询。这种方法已被证明在稳定跨训练时期的二分匹配中是有效的。MP-Former 解决了连续解码器层之间不一致的掩码预测问题。MP-Former 采用了掩码引导训练方法,使用故意加入噪声的GT查询和GT掩码,以减轻不准确掩码预测的负面影响。Mask DINO 引入了一个统一的去噪训练框架,增强了多任务学习在目标检测和分割任务中的稳定性。

方法论

创新点

作者引入了几种创新方法来提高预测高精地图的准确性:

  • 设计了位置查询生成器(Positional Query Generator,PQG),它生成捕获全面位置信息的实例级位置查询,以增强掩码感知查询。

  • 大多数现有方法在构建高精地图时没有考虑每个地图实例的点级信息,但是作者引入了几何特征提取器(Geometric Feature Extractor,GFE)来捕获每个实例的几何结构。GFE处理BEV分割掩码,从BEV特征中提取地图实例的点级几何特征。

  • 作者观察到由于IMPNet和MMPNet的查询与不同实例的GT相关联,Mask2Map的性能受到限制。为了解决这个问题,作者提出了一种网络间去噪训练策略(Inter-network Denoising Training )。这种方法使用嘈杂的GT查询和扰动的GT分割掩码作为IMPNet的输入,并引导模型对抗噪声,从而确保网络间的一致性并提高高精地图构建的性能。

模型结构

Mask2Map的整体架构如下图2所示。Mask2Map架构包括两个网络:IMPNet和MMPNet。首先,IMPNet生成从全局视角捕获全面语义信息的掩码感知查询。随后,MMPNet利用通过PQG和GFE获得的几何信息,从局部视角构建更详细的矢量化地图。

6d079784d2f920ac90399bd45336a4b5.png
实例级掩码预测网络(IMPNet)

IMPNet由BEV编码器掩码感知查询生成器组成。BEV编码器从传感器数据中提取多尺度BEV特征,掩码感知查询生成器产生掩码感知查询,随后用于生成BEV分割掩码。

BEV编码器: IMPNet通过处理多视图相机图像、激光雷达点云或两者的融合,生成BEV特征。多视图相机图像通过LSS操作转换为BEV表示。激光雷达点云通过体素编码转换为BEV表示。当集成相机和激光雷达传感器进行融合时,从两种模态提取的BEV特征被连接并通过额外的卷积层。

接下来,BEV编码器通过下采样层产生多尺度BEV特征。这些多尺度特征然后通过 Deformable Transformer Encoder 联合编码,来编码多尺度BEV特征之间的关系。这个过程产生多尺度BEV特征 ,其中l表示尺度索引,S表示尺度总数。尺度索引l = 1代表最小尺度,而l = S表示最大尺度。作者用H和W表示最大尺度的BEV特征 的高度和宽度。

掩码感知查询生成器: 掩码感知查询生成器使用Mask2Former中提出的掩码变换器从多尺度BEV特征中提取掩码感知查询。掩码感知查询以可学习向量初始化,并通过变换器解码器的M层进行解码。给定多尺度BEV特征FBEV和第(m-1)解码层获得的BEV分割掩码 ,掩码感知查询 更新如下:

其中 τ 表示阈值,表示掩码感知查询的数量,、和是可学习的权重矩阵。最后,通过将最大尺度的BEV特征与掩码感知查询沿通道轴进行点积,获得BEV分割掩码。然后应用sigmoid函数将BEV分割掩码归一化。这些BEV分割掩码随后反馈到下一个解码层进行进一步细化。经过M个解码层后,IMPNet最终得到最终的掩码感知查询和BEV分割掩码,这些将传递给后续的MMPNet。

掩码驱动地图预测网络(MMPNet)

MMPNet包括三个主要组成部分:位置查询生成器(Positional Query Generator)、几何特征提取器(Geometric Feature Extractor)和掩码引导地图解码器(Mask-Guided Map Decoder)。位置查询生成器注入位置信息以增强掩码感知查询,而几何特征提取器处理BEV分割掩码以从BEV特征中提取几何特征。最后,掩码引导地图解码器使用位置查询生成器和几何特征提取器提供的特征,预测地图实例的类别和有序点集的坐标。

位置查询生成器: 虽然掩码感知查询携带有关地图实例的语义信息,但它们缺乏位置信息。为了使MMPNet能够为地图实例生成点的坐标,将BEV域中的位置信息整合到掩码感知查询中是必要的。PQG初始从BEV分割掩码MBEV中派生出稀疏的BEV掩码,

PQG将2D位置编码PE注入到稀疏的BEV掩码中,其中PE由正弦函数生成。然后,通过在x和y域中应用平均池化,获得位置查询,

其中 ,表示中非零像素的数量,表示逐元素乘积。位置查询与掩码感知查询 连接,生成组合位置查询。接下来,使用组合位置查询生成第i个地图实例的个点级特征。为此,PQG将复制次,并将其与个可学习点查询, ..., 相加,生成PQG查询特征,

其中和。注意,可学习查询到为掩码感知查询提供了生成第i个地图实例点的顺序。结果的PQG查询特征传递给掩码引导地图解码器。

几何特征提取器: GFE生成捕获地图实例几何结构的逐点特征。初始化,使用阈值τ,GFE从BEV分割掩码生成稀疏的BEV掩码。为了生成逐点几何特征,GFE从稀疏的BEV掩码中采样个关键像素。首先,作者采用最大存活(Max Survival)方法,选择在大小为G×G的不重叠窗口上滑动时最强的像素,并将其余像素设置为零。接下来,作者应用最远点采样(Farthest Point Sampling, FPS)方法,迭代选择最大存活方法的输出,并识别个关键点。最后,根据个关键点的位置,从最大尺度的BEV特征中池化个特征。同时,使用MLP编码这些个关键点的(x, y)坐标。这两个特征被连接起来,形成GFE特征,表示为。

掩码引导地图解码器: 掩码引导地图解码器基于PQG查询特征和GFE特征预测矢量化地图组件的类别和有序点序列。通过使用作为查询,作为键和值,交叉注意力模块产生掩码感知混合查询。这些查询随后使用多尺度BEV特征作为值,通过 Deformable Transformer 解码。最后,预测头通过分类和回归头分别预测每个地图实例的实例分类分数和标准化BEV坐标。

网络间去噪训练

Mask2Map通过IMPNet传递掩码感知查询给MMPNet,以进行实例特征的层次化细化。为了确保有效的训练,作者为IMPNet分配了实例分割损失,为MMPNet分配了地图构建损失。IMPNet和MMPNet使用的查询应该通过二分匹配与它们各自的GT进行匹配。然而,当IMPNet和MMPNet的查询与不同实例的GT相关联时,匹配过程中可能会出现不一致性。作者观察到这种网络间的不一致性往往会引发收敛速度变慢和性能下降。

为了解决这个问题,作者采用了去噪训练策略。关键思想是将从每个GT实例派生的嘈杂GT查询,合并到IMPNet内的可学习查询中(见图2)。作者的模型被训练以去噪这些查询,通过直接将它们与相应的GT匹配。这与通过二分匹配将可学习查询与GT匹配的方式形成对比。因此,这种策略被称为网络间去噪训练。这个过程引导模型在IMPNet和MMPNet使用的查询之间建立对应关系,有效减轻了网络间的不一致性。此外,除了GT查询,作者还生成了扰动的GT分割掩码,以替代IMPNet的BEV分割掩码。

fd75beea86009d41c1fda55ef47fd775.png

作者通过为每个实例的GT类别分配所有类别嵌入向量之一来生成GT查询。作者通过以概率λ随机替换类嵌入向量与其他类别之一来添加翻转噪声。同时,作者还通过将地图噪声添加到每个实例的有序点序列中,并将其光栅化,生成扰动的GT分割掩码,如图3(c)所示。

嘈杂GT查询和可学习查询的组合被称为可学习实例查询。与使用BEV分割掩码不同,作者专门使用扰动的GT分割掩码进行嘈杂GT查询。嘈杂GT查询通过IMPNet和MMPNet传递,其预测结果与相应的GT匹配,而不进行二分匹配。

训练损失

用于训练Mask2Map的总损失L由下式给出:

其中是训练IMPNet进行BEV分割任务的损失项,是训练MMPNet进行地图构建任务的损失项,是辅助损失项,是网络间去噪训练的损失项。

作者使用匈牙利算法的二分匹配来为IMPNet和MMPNet使用的查询分配它们各自的GT。基于分配,作者计算和。作者采用[6]的方法获得损失项。损失项包括用于矢量化地图实例回归的L1损失,用于实例分类的焦点损失,以及计算从GT和预测中相邻点的方向的余弦相似度损失。辅助损失项计算在相机透视视图特征上进行的深度估计和2D地图语义分割任务的误差。损失项是两个项的总和,每个项分别对应于在没有GT和预测之间的二分匹配的情况下,在IMPNet和MMPNet中使用的嘈杂GT查询的损失。

实验

实验设置

数据集。 作者在nuScenes 和 Argoverse2 两个公开数据集上做了测试。

评估指标。 作者定义了感知范围为横向方向 [-15.0m, 15.0m] 和纵向方向 [-30.0m, 30.0m]。作者将地图实例分为三类用于高精地图构建:人行横道、车道分隔线和道路边界。作者采用两种评估指标:基于 Chamfer 距离提出的平均精度 (AP) 和基于光栅化的 AP 。作者主要使用 Chamfer 距离度量,使用 0.5、1.0 和 1.5 米的阈值计算平均精度 (mAP)。对于基于光栅化的平均精度 (mAP†),作者测量每个地图实例的交并比,阈值设置为 {0.50, 0.55, ..., 0.75} 用于人行横道和 {0.25, 0.30, ..., 0.50} 用于线形元素。为了进一步评估网络间匹配一致性比率,作者使用了查询利用率 (Query Utilization, Util) 指标,该指标计算 MMPNet 的第一解码器层与 IMPNet 的最后一层匹配的一致性比率。

实现细节。 作者采用了 ResNet50 作为图像骨干网络。对于 nuScenes,尺寸为 1600×900 的图像通过 0.5 的比例进行缩放。在 Argoverse2 的情况下,前视图的七个图像尺寸为 1550×2048,其他图像尺寸为 2048×1550,在缩放前被填充到 2048×2048,然后通过 0.3 的比例进行缩放。激光雷达点云被体素化,体素大小为 0.1、0.1 和 0.2。体素特征通过 SECOND 提取。作者在 IMPNet 中采用了六个 BEV 编码器层和三个掩码变换器层。在 MMPNet 中,作者采用了六个变换器解码器层。BEV 分割掩码、τ、τ 和 τ 的阈值分别设置为 0.5、0.3 和 0.8。作者将实例查询的数量配置为 50,点查询的数量为 20。在 GFE 中,作者将 Max Survival 方法的窗口大小 (G) 设置为 4,采样点数 () 设置为 20。翻转噪声概率 λ 设置为 0.2。对于优化,作者采用了 AdamW,权重衰减为 0.01,并使用余弦退火作为调度器。初始学习率设置为 6e-4。作者的模型在 4 个 RTX3090 GPU 上训练,每个 GPU 的批量大小为 4。

性能比较

nuScenes 上的结果。 表1展示了 Mask2Map 在 nuScenes 验证集上的全面性能分析,使用 Chamfer 距离度量。Mask2Map 建立了新的最先进性能,显著优于现有方法。当仅使用相机输入时,Mask2Map 在 24 个周期内取得了 71.6% mAP 的显著结果,在 110 个周期内取得了 74.6% mAP,分别比之前的最先进模型 MapTRv2 高出 10.1% mAP 和 5.9% mAP。当使用相机-激光雷达融合时,Mask2Map 比 MapTRv2 提高了 9.4% mAP 的性能。表2基于光栅化度量评估了 Mask2Map 的性能。值得注意的是,作者的 Mask2Map 方法比 MapTRv2 提高了 18.0 mAP 的显著性能。

Argoverse2 上的结果。 表3展示了几种高精地图构建方法在 Argoverse2 验证集上的性能评估。所提出的 Mask2Map 与现有模型相比显示出显著的性能提升。Mask2Map 超过了当前领先的方法 MapTRv2,提高了 4.1% mAP,表明作者的模型在不同场景中实现了一致的性能。

1531850eaa0f345a47ce4bdbc231a8fa.png

消融研究

作者进行了消融研究,以评估 Mask2Map 核心思想的贡献。在这些实验中,使用了仅相机输入和 ResNet50 骨干网络。训练在 nuScenes 训练数据集的 1/4 上进行了 24 个周期。评估在完整验证集上执行。

主要组件的贡献: 表4展示了 Mask2Map 每个组件的影响。作者通过逐个添加每个组件来评估性能。第一行代表一个基线模型,使用基于 LSS 的 BEV 编码器提取 BEV 特征,并使用可变形注意力预测矢量化地图实例。将 IMPNet 添加到基线模型时,作者注意到 mAP 显著增加了 5.9%,表明包含掩码感知查询(能够生成实例分割结果)显著提升了高精地图构建的性能。此外,添加 MMPNet 使 mAP 进一步提高了 3.8%,强调了通过 BEV 分割掩码注入地图实例的位置和几何信息的重要性。最后,作者的网络间去噪训练提供了额外的 6.5% mAP 增加,强调了其在提升性能中的有效性。

MMPNet 子模块的贡献: 作者在表5中详细研究了 PQG 和 GFE 的贡献。仅 GFE 就比基线贡献了显著的 3.1% mAP 增加,而仅 PQG 则产生了 3.4% mAP 的改进。PQG 和 GFE 的组合通过 4.8% mAP 进一步提高了性能,展示了它们的互补效应。

网络间去噪训练对匹配一致性的影响: 作者进一步研究了网络间去噪训练的影响。如表6所示,网络间去噪训练将匹配比率 Util 从 24.7% 显著提高到 74.7%,这转化为整体 mAP 性能的 6.5% 显著增加。这表明作者的网络间去噪训练有效地减轻了 IMPNet 和 MMPNet 之间查询到 GT 匹配的不一致性。

网络间去噪训练中噪声的影响: 在表7中,作者探索了在网络间去噪训练中使用的地图噪声的影响。作者将方法与不使用地图噪声的 GT 分割掩码的基线进行了比较。结果表明,在 GT 中添加地图噪声比基线提高了 0.8% mAP。

8a951fd34dfefcbbda5cf4e1a39bc680.png

定性分析

定性结果。 图4展示了所提出的 Mask2Map 产生的定性结果。作者与当前的最先进方法 MapTRv2 进行了比较。注意,Mask2Map 产生了比 MapTRv2 更好的地图构建结果。

f98b6094308c407b84737e145039d6f0.png

总结

作者介绍了一种名为Mask2Map的端到端在线高精地图构建方法。Mask2Map利用IMPNet生成掩码感知查询和BEV分割掩码,从全局视角捕获语义场景上下文。随后,MMPNet通过PQG和GFE增强掩码感知查询,整合语义和几何信息。最后,掩码引导地图解码器预测地图实例的类别和有序点集。此外,作者提出了网络间去噪训练,以减轻IMPNet和MMPNet之间由于不同的二分匹配结果导致的网络间不一致性。作者在nuScenes和Argoverse2基准测试上的评估表明,所提出的想法比基线带来了显著的性能提升,以相当大的优势超越了现有的高精地图构建方法。

参考

[1] Mask2Map: Vectorized HD Map Construction Using Bird’s Eye View Segmentation Masks

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!重磅,自动驾驶之心科研论文辅导来啦,申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向,欢迎联系我们!

14d41306244cf101a48a5ee0b556bcd7.jpeg

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

8fdddcffef93872b830437cc1c3de484.png 网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

8a822d49f443bab612dc7eda259ac879.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

c012bc0a8ac2ba8fff1fabb7dfaef468.jpeg

④【自动驾驶之心】全平台矩阵

fa603a9945414b89cf0477aeeb2cad6f.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值