分割仍旧发光！Mask2Map：爆拉MapTRv2 近10个点~-CSDN博客

点击下方卡片，关注“自动驾驶之心”公众号

今天自动驾驶之心为大家分享在线高精地图的最新工作—Mask2Map！基于分割的全新框架，爆拉MapTR v2近十个点！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『在线高精地图』技术交流群

编辑 | 自动驾驶之心

写在前面 & 笔者理解

高精地图（HD Map）一直以来被认为是是保证自动驾驶车辆安全有效导航的关键要素。它们通过提供地图实例的详细位置和语义信息，促进精确的规划和障碍物避让。传统上，利用基于SLAM的方法离线构建的高精地图，涉及复杂的过程，需要大量的劳动力和经济成本。而且，这种方法在响应道路条件变化并提供及时更新方面存在局限性。所以，最近越来越多的论文开始研究如何基于学习来在线构造高精地图构建，专注于生成自车周围的局部地图。

论文地址：https://arxiv.org/pdf/2407.13517

早期的工作将地图构建视为一种语义分割任务，基于从各种传感器获得的BEV特征。它们预测了栅格格式中每个像素的类别标签，避免了生成精确矢量轮廓的复杂性。虽然这种方法提供了语义地图信息，但在捕捉不同类别的地图组件的精确关键位置及其结构关系方面存在不足。因此，其输出并不适合直接应用于下游任务，如运动预测和规划。为了解决这个问题，越来越多的研究者将 HD map 矢量化，能够直接生成矢量化的地图实体。常见的方法如下图1所示。

之前的工作主要分为三种思路：

图1(a): 基于分割的解码方法，该方法涉及语义分割，然后使用启发式后处理算法生成矢量化地图。然而，这种方法需要大量的处理时间。
图1(b): 基于检测的解码方法识别对应于各种实例的关键点，然后按顺序生成矢量化地图组件。但是，仅依赖关键点可能无法充分捕捉实例的多样化形状，从而阻碍了生成准确的高精地图。
图1(c): 各种基于可学习查询的解码方法，这些方法通过并行从BEV特征中解码可学习查询，直接预测矢量化地图组件。由于初始可学习查询与给定场景无关，它们限制了同时捕获复杂场景中地图实例的语义和几何信息的能力。

在这篇论文中，作者介绍了一种新的端到端高精地图构建框架，称为Mask2Map。如图1(d)所示，Mask2Map通过利用分割掩码来区分BEV领域中不同类别的实例。所提出的Mask2Map架构包括两个网络：实例级掩码预测网络（Instance Level Mask Prediction Network，IMPNet）和掩码驱动地图预测网络（Mask-Driven Map Prediction Network，MMPNet）。最初，IMPNet从传感器数据构建多尺度BEV特征，并生成掩码感知查询，从全局角度捕获实例的语义特征。遵循实例分割模型Mask2Former的框架，作者设计了掩码感知查询，能够生成与BEV范围中不同类别的实例相关联的BEV分割掩码。随后，基于IMPNet提供的掩码感知查询，MMPNet动态地从BEV范围的局部角度预测地图实例的有序点集。

方法论

创新点

作者引入了几种创新方法来提高预测高精地图的准确性：

设计了位置查询生成器（Positional Query Generator，PQG），它生成捕获全面位置信息的实例级位置查询，以增强掩码感知查询。
大多数现有方法在构建高精地图时没有考虑每个地图实例的点级信息，但是作者引入了几何特征提取器（Geometric Feature Extractor，GFE）来捕获每个实例的几何结构。GFE处理BEV分割掩码，从BEV特征中提取地图实例的点级几何特征。
作者观察到由于IMPNet和MMPNet的查询与不同实例的GT相关联，Mask2Map的性能受到限制。为了解决这个问题，作者提出了一种网络间去噪训练策略（Inter-network Denoising Training ）。这种方法使用嘈杂的GT查询和扰动的GT分割掩码作为IMPNet的输入，并引导模型对抗噪声，从而确保网络间的一致性并提高高精地图构建的性能。

模型结构

Mask2Map的整体架构如下图2所示。Mask2Map架构包括两个网络：IMPNet和MMPNet。首先，IMPNet生成从全局视角捕获全面语义信息的掩码感知查询。随后，MMPNet利用通过PQG和GFE获得的几何信息，从局部视角构建更详细的矢量化地图。

实例级掩码预测网络（IMPNet）

IMPNet由BEV编码器和掩码感知查询生成器组成。BEV编码器从传感器数据中提取多尺度BEV特征，掩码感知查询生成器产生掩码感知查询，随后用于生成BEV分割掩码。

BEV编码器： IMPNet通过处理多视图相机图像、激光雷达点云或两者的融合，生成BEV特征。多视图相机图像通过LSS操作转换为BEV表示。激光雷达点云通过体素编码转换为BEV表示。当集成相机和激光雷达传感器进行融合时，从两种模态提取的BEV特征被连接并通过额外的卷积层。

接下来，BEV编码器通过下采样层产生多尺度BEV特征。这些多尺度特征然后通过 Deformable Transformer Encoder 联合编码，来编码多尺度BEV特征之间的关系。这个过程产生多尺度BEV特征，其中l表示尺度索引，S表示尺度总数。尺度索引l = 1代表最小尺度，而l = S表示最大尺度。作者用H和W表示最大尺度的BEV特征的高度和宽度。

掩码感知查询生成器： 掩码感知查询生成器使用Mask2Former中提出的掩码变换器从多尺度BEV特征中提取掩码感知查询。掩码感知查询以可学习向量初始化，并通过变换器解码器的M层进行解码。给定多尺度BEV特征FBEV和第(m-1)解码层获得的BEV分割掩码，掩码感知查询更新如下：

其中 τ 表示阈值，表示掩码感知查询的数量，、和是可学习的权重矩阵。最后，通过将最大尺度的BEV特征与掩码感知查询沿通道轴进行点积，获得BEV分割掩码。然后应用sigmoid函数将BEV分割掩码归一化。这些BEV分割掩码随后反馈到下一个解码层进行进一步细化。经过M个解码层后，IMPNet最终得到最终的掩码感知查询和BEV分割掩码，这些将传递给后续的MMPNet。

掩码驱动地图预测网络（MMPNet）

MMPNet包括三个主要组成部分：位置查询生成器（Positional Query Generator）、几何特征提取器（Geometric Feature Extractor）和掩码引导地图解码器（Mask-Guided Map Decoder）。位置查询生成器注入位置信息以增强掩码感知查询，而几何特征提取器处理BEV分割掩码以从BEV特征中提取几何特征。最后，掩码引导地图解码器使用位置查询生成器和几何特征提取器提供的特征，预测地图实例的类别和有序点集的坐标。

位置查询生成器： 虽然掩码感知查询携带有关地图实例的语义信息，但它们缺乏位置信息。为了使MMPNet能够为地图实例生成点的坐标，将BEV域中的位置信息整合到掩码感知查询中是必要的。PQG初始从BEV分割掩码MBEV中派生出稀疏的BEV掩码，

PQG将2D位置编码PE注入到稀疏的BEV掩码中，其中PE由正弦函数生成。然后，通过在x和y域中应用平均池化，获得位置查询，

其中，表示中非零像素的数量，表示逐元素乘积。位置查询与掩码感知查询连接，生成组合位置查询。接下来，使用组合位置查询生成第i个地图实例的个点级特征。为此，PQG将复制次，并将其与个可学习点查询, ..., 相加，生成PQG查询特征，

其中和。注意，可学习查询到为掩码感知查询提供了生成第i个地图实例点的顺序。结果的PQG查询特征传递给掩码引导地图解码器。

几何特征提取器： GFE生成捕获地图实例几何结构的逐点特征。初始化，使用阈值τ，GFE从BEV分割掩码生成稀疏的BEV掩码。为了生成逐点几何特征，GFE从稀疏的BEV掩码中采样个关键像素。首先，作者采用最大存活（Max Survival）方法，选择在大小为G×G的不重叠窗口上滑动时最强的像素，并将其余像素设置为零。接下来，作者应用最远点采样（Farthest Point Sampling, FPS）方法，迭代选择最大存活方法的输出，并识别个关键点。最后，根据个关键点的位置，从最大尺度的BEV特征中池化个特征。同时，使用MLP编码这些个关键点的(x, y)坐标。这两个特征被连接起来，形成GFE特征，表示为。

掩码引导地图解码器： 掩码引导地图解码器基于PQG查询特征和GFE特征预测矢量化地图组件的类别和有序点序列。通过使用作为查询，作为键和值，交叉注意力模块产生掩码感知混合查询。这些查询随后使用多尺度BEV特征作为值，通过 Deformable Transformer 解码。最后，预测头通过分类和回归头分别预测每个地图实例的实例分类分数和标准化BEV坐标。

网络间去噪训练

Mask2Map通过IMPNet传递掩码感知查询给MMPNet，以进行实例特征的层次化细化。为了确保有效的训练，作者为IMPNet分配了实例分割损失，为MMPNet分配了地图构建损失。IMPNet和MMPNet使用的查询应该通过二分匹配与它们各自的GT进行匹配。然而，当IMPNet和MMPNet的查询与不同实例的GT相关联时，匹配过程中可能会出现不一致性。作者观察到这种网络间的不一致性往往会引发收敛速度变慢和性能下降。

为了解决这个问题，作者采用了去噪训练策略。关键思想是将从每个GT实例派生的嘈杂GT查询，合并到IMPNet内的可学习查询中（见图2）。作者的模型被训练以去噪这些查询，通过直接将它们与相应的GT匹配。这与通过二分匹配将可学习查询与GT匹配的方式形成对比。因此，这种策略被称为网络间去噪训练。这个过程引导模型在IMPNet和MMPNet使用的查询之间建立对应关系，有效减轻了网络间的不一致性。此外，除了GT查询，作者还生成了扰动的GT分割掩码，以替代IMPNet的BEV分割掩码。

作者通过为每个实例的GT类别分配所有类别嵌入向量之一来生成GT查询。作者通过以概率λ随机替换类嵌入向量与其他类别之一来添加翻转噪声。同时，作者还通过将地图噪声添加到每个实例的有序点序列中，并将其光栅化，生成扰动的GT分割掩码，如图3(c)所示。

嘈杂GT查询和可学习查询的组合被称为可学习实例查询。与使用BEV分割掩码不同，作者专门使用扰动的GT分割掩码进行嘈杂GT查询。嘈杂GT查询通过IMPNet和MMPNet传递，其预测结果与相应的GT匹配，而不进行二分匹配。

训练损失

用于训练Mask2Map的总损失L由下式给出：

其中是训练IMPNet进行BEV分割任务的损失项，是训练MMPNet进行地图构建任务的损失项，是辅助损失项，是网络间去噪训练的损失项。

作者使用匈牙利算法的二分匹配来为IMPNet和MMPNet使用的查询分配它们各自的GT。基于分配，作者计算和。作者采用[6]的方法获得损失项。损失项包括用于矢量化地图实例回归的L1损失，用于实例分类的焦点损失，以及计算从GT和预测中相邻点的方向的余弦相似度损失。辅助损失项计算在相机透视视图特征上进行的深度估计和2D地图语义分割任务的误差。损失项是两个项的总和，每个项分别对应于在没有GT和预测之间的二分匹配的情况下，在IMPNet和MMPNet中使用的嘈杂GT查询的损失。

实验

实验设置

数据集。 作者在nuScenes 和 Argoverse2 两个公开数据集上做了测试。

评估指标。 作者定义了感知范围为横向方向 [-15.0m, 15.0m] 和纵向方向 [-30.0m, 30.0m]。作者将地图实例分为三类用于高精地图构建：人行横道、车道分隔线和道路边界。作者采用两种评估指标：基于 Chamfer 距离提出的平均精度 (AP) 和基于光栅化的 AP 。作者主要使用 Chamfer 距离度量，使用 0.5、1.0 和 1.5 米的阈值计算平均精度 (mAP)。对于基于光栅化的平均精度 (mAP†)，作者测量每个地图实例的交并比，阈值设置为 {0.50, 0.55, ..., 0.75} 用于人行横道和 {0.25, 0.30, ..., 0.50} 用于线形元素。为了进一步评估网络间匹配一致性比率，作者使用了查询利用率 (Query Utilization, Util) 指标，该指标计算 MMPNet 的第一解码器层与 IMPNet 的最后一层匹配的一致性比率。

实现细节。 作者采用了 ResNet50 作为图像骨干网络。对于 nuScenes，尺寸为 1600×900 的图像通过 0.5 的比例进行缩放。在 Argoverse2 的情况下，前视图的七个图像尺寸为 1550×2048，其他图像尺寸为 2048×1550，在缩放前被填充到 2048×2048，然后通过 0.3 的比例进行缩放。激光雷达点云被体素化，体素大小为 0.1、0.1 和 0.2。体素特征通过 SECOND 提取。作者在 IMPNet 中采用了六个 BEV 编码器层和三个掩码变换器层。在 MMPNet 中，作者采用了六个变换器解码器层。BEV 分割掩码、τ、τ 和 τ 的阈值分别设置为 0.5、0.3 和 0.8。作者将实例查询的数量配置为 50，点查询的数量为 20。在 GFE 中，作者将 Max Survival 方法的窗口大小 (G) 设置为 4，采样点数 () 设置为 20。翻转噪声概率 λ 设置为 0.2。对于优化，作者采用了 AdamW，权重衰减为 0.01，并使用余弦退火作为调度器。初始学习率设置为 6e-4。作者的模型在 4 个 RTX3090 GPU 上训练，每个 GPU 的批量大小为 4。

性能比较

nuScenes 上的结果。 表1展示了 Mask2Map 在 nuScenes 验证集上的全面性能分析，使用 Chamfer 距离度量。Mask2Map 建立了新的最先进性能，显著优于现有方法。当仅使用相机输入时，Mask2Map 在 24 个周期内取得了 71.6% mAP 的显著结果，在 110 个周期内取得了 74.6% mAP，分别比之前的最先进模型 MapTRv2 高出 10.1% mAP 和 5.9% mAP。当使用相机-激光雷达融合时，Mask2Map 比 MapTRv2 提高了 9.4% mAP 的性能。表2基于光栅化度量评估了 Mask2Map 的性能。值得注意的是，作者的 Mask2Map 方法比 MapTRv2 提高了 18.0 mAP 的显著性能。

Argoverse2 上的结果。 表3展示了几种高精地图构建方法在 Argoverse2 验证集上的性能评估。所提出的 Mask2Map 与现有模型相比显示出显著的性能提升。Mask2Map 超过了当前领先的方法 MapTRv2，提高了 4.1% mAP，表明作者的模型在不同场景中实现了一致的性能。

消融研究

作者进行了消融研究，以评估 Mask2Map 核心思想的贡献。在这些实验中，使用了仅相机输入和 ResNet50 骨干网络。训练在 nuScenes 训练数据集的 1/4 上进行了 24 个周期。评估在完整验证集上执行。

主要组件的贡献： 表4展示了 Mask2Map 每个组件的影响。作者通过逐个添加每个组件来评估性能。第一行代表一个基线模型，使用基于 LSS 的 BEV 编码器提取 BEV 特征，并使用可变形注意力预测矢量化地图实例。将 IMPNet 添加到基线模型时，作者注意到 mAP 显著增加了 5.9%，表明包含掩码感知查询（能够生成实例分割结果）显著提升了高精地图构建的性能。此外，添加 MMPNet 使 mAP 进一步提高了 3.8%，强调了通过 BEV 分割掩码注入地图实例的位置和几何信息的重要性。最后，作者的网络间去噪训练提供了额外的 6.5% mAP 增加，强调了其在提升性能中的有效性。

MMPNet 子模块的贡献： 作者在表5中详细研究了 PQG 和 GFE 的贡献。仅 GFE 就比基线贡献了显著的 3.1% mAP 增加，而仅 PQG 则产生了 3.4% mAP 的改进。PQG 和 GFE 的组合通过 4.8% mAP 进一步提高了性能，展示了它们的互补效应。

网络间去噪训练对匹配一致性的影响： 作者进一步研究了网络间去噪训练的影响。如表6所示，网络间去噪训练将匹配比率 Util 从 24.7% 显著提高到 74.7%，这转化为整体 mAP 性能的 6.5% 显著增加。这表明作者的网络间去噪训练有效地减轻了 IMPNet 和 MMPNet 之间查询到 GT 匹配的不一致性。

网络间去噪训练中噪声的影响： 在表7中，作者探索了在网络间去噪训练中使用的地图噪声的影响。作者将方法与不使用地图噪声的 GT 分割掩码的基线进行了比较。结果表明，在 GT 中添加地图噪声比基线提高了 0.8% mAP。

定性分析

定性结果。 图4展示了所提出的 Mask2Map 产生的定性结果。作者与当前的最先进方法 MapTRv2 进行了比较。注意，Mask2Map 产生了比 MapTRv2 更好的地图构建结果。

总结

作者介绍了一种名为Mask2Map的端到端在线高精地图构建方法。Mask2Map利用IMPNet生成掩码感知查询和BEV分割掩码，从全局视角捕获语义场景上下文。随后，MMPNet通过PQG和GFE增强掩码感知查询，整合语义和几何信息。最后，掩码引导地图解码器预测地图实例的类别和有序点集。此外，作者提出了网络间去噪训练，以减轻IMPNet和MMPNet之间由于不同的二分匹配结果导致的网络间不一致性。作者在nuScenes和Argoverse2基准测试上的评估表明，所提出的想法比基线带来了显著的性能提升，以相当大的优势超越了现有的高精地图构建方法。

参考

[1] Mask2Map: Vectorized HD Map Construction Using Bird’s Eye View Segmentation Masks

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频