CVPR2023 Workshop | 在线高精地图构建挑战赛第一名方案！-CSDN博客

本文链接：https://blog.csdn.net/CV_Autobot/article/details/131448098

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

今天自动驾驶之心为大家分享CVPR2023 Autonomous Driving Challenge高精地图构建冠军方案—MachMap，如果您有相关工作需要分享，请在文末联系我们！

>>点击进入→自动驾驶之心【高精地图】技术交流群

论文作者 | Limeng Qiao

编辑 | 自动驾驶之心

大家好，今天为大家分享下我们的高精地图构建方案，在CVPR2023 Autonomous Driving Challenge高精地图构建上获得了第一名！

本报告介绍了我们在2023年自动驾驶挑战赛的第一名获奖解决方案：在线高清地图构建。通过深入研究矢量化pipeline，我们提出了一种有效的架构，称为MachMap，它以端到端的方式将高清地图构建任务定义为鸟瞰空间中的点检测范式。首先，在我们的框架中引入了一种新的map-compaction方案，使矢量化点的数量减少了93%，而不会降低任何表达式性能。在上述过程的基础上，我们遵循基于查询的通用范式，并通过集成强大的基于CNN的主干（如InternImage）、基于时间的实例解码器和精心设计的point-mask耦合头，提出了一个强大的基线。此外，利用额外的可选集成阶段来细化模型预测，以获得更好的性能。

我们的MachMap mini通过IN-1K初始化，在Argoverse2基准上实现了79.1的mAP，在最终排行榜上以明显的性能优势（至少>9.8mAP）胜过所有其他在线高清地图构建方法。

领域背景介绍

作为自动驾驶的基础模块之一，高清地图（HD map）为车辆导航提供厘米级的环境信息，包括详细的几何拓扑关系和语义地图类别，如行人过街、车道分隔和道路边界。近年来，随着深度神经网络的发展，车载传感器（摄像头）在线构建局部高清地图逐渐成为一种更有利和潜在的解决方案。

在线高清地图构建轨道旨在根据周围摄像机图像动态构建局部高清地图，在这项任务中，图1（a）中的局部高清地图地面实况由一组具有三个语义类别的地图元素描述，每个元素都被设计为由一组有序点组成的折线，以处理复杂甚至不规则的道路结构，我们的方法主要集中在三个方面来处理竞争：

（1）地图建模原理：我们提出了元素间方向一致性和元素内序列紧凑性的原则，以减少基于折线的地图建模的内在冗余。在不损失任何表达性能的情况下，不同元素之间的点序列的流动方向应该尽可能一致，并且同一地图元素内的点序列应该保留尽可能少的点。（2）时间融合实例解码器：基于来自图像主干的多摄像机特征，我们使用基于时间融合的鸟瞰图（BEV）特征解编码器进行视图转换，并使用自下而上的逐点实例解码器提取点描述符。

（3） point-mask耦合头：考虑到不同的地图元素具有不同的形状先验，例如车道分隔符通常是多段线，ped-crossing点是凸多边形，我们在MaskDINO框架下为每个语义地图类别配备了分割和检测头，这大大提高了模型的灵活性和可扩展性。此外，上述多任务训练策略也加速了模型的收敛性能，受上述动机的启发，我们提出了一种端到端矢量化高清地图构建架构，命名为MachMap。整个框架如图2所示，所有技术细节将在下一节中介绍。

我们的方案

MachMap的架构如下所示，给定surrounding图像，通过image主干和neck从每个视图生成2D特征。然后使用可变形注意力来聚集不同视图之间的3D特征，并沿z轴对其进行平均。时间融合模块将新的BEV特征与BEV的隐藏状态融合，并在此基础上更新隐藏状态。最后进行了实例解码器，该解码器利用实例级可变形注意力来细化内容和点特征，并对最终结果进行格式化，值得注意的是，ped-crossing和车道划分的结果是从掩模中变薄的。

本节介绍我们获胜方法的细节。首先提出了map compaction pipeline，它显著降低了模型训练的难度，使推理结果更加紧凑和高效。接下来，给出了每个模块的设计方案，并将一些特定任务的改进集成到一些现成的方法中。最后，我们介绍了我们新颖的集成思想，这可以进一步增强我们的方法。

Map Compaction Pipeline

与光栅化方案不同的是，给定注释中的矢量化HD地图明确地表达了地图元素和实例信息在各自类别中的空间关系，根据新提出的地图建模原理，我们分两步对原始均匀采样的地图表示进行压缩，即方向重排和冗余去除。

（1）元素间方向一致性：原始地图注释中元素的方向处于混乱状态，例如从前到后或从后到前的车道分隔符，如图1（a）所示。方向的不一致会对模型的训练产生负面影响，为了减少地图组织的离散性，我们遵循一定的策略，使地图元素的方向尽可能有序，并保证这个过程不会丢失地图的任何细节。在符合人眼观察顺序的原则下，一种简单直观的策略是根据鸟瞰空间中从前到后、从左到右的规则对所有折线进行重组。

（2）元素内序列紧致性：点均匀分布的矢量化地图具有冗余的语义信息，而压缩点表示是稀疏的，更适合地图的表达和存储。为此，我们提取所有元素的关键点来监督模型训练。采用Douglas Peucker算法和Visvalingam算法将由线段组成的多段线压缩为具有较少点的相似多段线。对于这些方法，点按重要性从低到高的顺序去除，重要性分别与距离和三角形面积有关。

MachMap 结构

遵循通用的基于查询的设计范式，如图2所示，其中整体结构可以大致分为三部分：BEV特征提取器、时间融合实例解码器和point-mask耦合头，然后根据信息流顺序介绍每个模块！

给出一个二维图像列表I∈R^{N×3×H×W}，提取图像中统一的纹理表示是当务之急。关于这一点，我们利用共享的InternImage作为提取图像特征的强大主干，该主干采用可变形卷积作为其核心算子，在下采样过程中，生成一系列不同尺度的特征图，然后通过双向特征金字塔网络（即BiFPN）进行聚合。

Multi-view Encoder：由于最终需要预测的地图向量位于3D空间中，因此有必要将周围特征从相机视图提升到3D空间。不是直接转换到三维视图，而是预定义一组参考点并将它们排列在BEV光栅中。然后使用相机的内参和外参将它们投影到多个图像上，聚合周围的特征。通过在z轴上求平均，得到了最终的鸟瞰图特征B∈R^{H_B×W_B×C}

时间融合模块：所提供的数据集是按时间顺序收集和组织的，每个样本都有精确的姿态。这使得可以通过姿态将当前特征与以前的特征对齐，从而在当前位置之外产生更大的真实世界感知范围。我们遵循VideoBEV中提出的长期融合策略，该策略使用车辆自我姿态将BEV特征的先前隐藏状态Ht−1关联到当前隐藏状态Bt−1，后者在信道维度上与当前BEV特征Bt级联，并通过1×1卷积层融合为：

实例解码器：为了从多任务损失中获益，选择了MaskDINO框架，该框架同时执行目标检测和分割任务。每个查询由内容向量和位置向量组成，前者用于生成实例掩码，而后者进行迭代更新以直接生成归一化坐标。然而，由于地图元素及其对应点集之间的层次关系，我们采用了MapTR中的查询设计范式，以更好地适应地图元素建模，这意味着查询是逐点的，并且可以聚合一组查询以形成单个实例并获得其相应的实例掩码！

输出Head：仅使用点回归的坐标有一些缺点。首先，存在一个关键点不匹配问题，一个预测良好的实例可能会出现属于其他实例的不匹配点，结果是，一个坏苹果破坏了整个实例。其次，对于ped-cross，存在很强的几何先验，很难通过向量来描述。然而，mask不仅可以有效地约束实例的几何形状，而且在训练过程中对不匹配的点也会造成很大的惩罚。根据经验，通过实例掩码的后处理获得人行道和车道划分，而点回归仅用于道路边界。作为常见的实践，对掩码采用交叉熵和dice 损失，对点回归采用L1损失。此外，还将语义损失添加到BEV特征中作为辅助监督，最终损失为：

集成策略

模型的预测地图矢量以归一化坐标表示，然后在后处理阶段将其重新缩放到ego坐标系中的实际范围60×30m。然而，来自图像的实际可见内容大大超过了这个范围，这往往导致在精确地图区域的边界位置存在某些元素的模糊性，而这些元素可能被单个模型忽略。因此，集成技术的使用可以通过将多个模型汇总在一起来减轻预测可变性并抑制过拟合！

通过利用倒角距离作为测量实例之间相似性的度量，在算法1中提出了集成算法。给定一个基集和一个提案列表，它们是从多个其他预测中导出的，并按置信度降序排序，我们可以将每个提案与基集逐一进行比较。如果它们的相似性很低，可以将它们视为遗漏的真阳性，并将它们添加到基集中。除了多模型集成，我们还进行了多帧集成，尽管使用了时间融合模块，但一些实例仍然不存在，这些实例在以前的帧中被准确地调用。这启发我们通过与前一帧的预测相结合来补偿一些不稳定的预测，值得注意的是，多帧和多模型的集成可以共享相同的算法，只需修改候选proposal列表的来源。

实验结果

Argoverse2在训练、验证和测试集中分别包含700、150和150个视频剪辑，来自challenge的给定数据是Argoverse2的子集。我们使用挑战训练集中的所有帧来验证不同消融的效果，但最终使用训练和验证集中的所有框架来获得更好的性能，主要关注三类，即车道分隔线、斑马线和道路边界。

表1，统计结果表明，在0.5米的阈值下，compacted map可以减少93%以上的点而不会损失表达性能，即使在更严格的0.2米下，它仍然可以保持97%以上的性能。

表2，比较第1排和第2排的结果，训练更多的epoch带来了超过10%的性能增益，这表明加快收敛速度仍然是一项至关重要的未来工作。与第3排和第4排、第5排和第6排、第7排和第8排相比，使用所提出的改进技术总能带来5%以上的增长，此外，即使从IN-1K作为预训练权重开始，我们的模型仍然达到79.1。

表3，我们以9.85mAP的性能优势战胜第二名，成功夺得冠军，证明了提出的MachMap方法的有效性！

参考

[1] MachMap: End-to-End Vectorized Solution for Compact HD-Map Construction

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码免费学习）

视频官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

近2000人的交流社区，涉及30+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、Occupancy、多传感器融合、大模型、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）