性能拉满!HIMap:混合query助力在线高精地图SOTA(CVPR'24)

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心高精地图技术交流群

论文作者 | Yi Zhou

编辑 | 自动驾驶之心

写在前面&笔者的个人理解

矢量化高精(HD)地图构建需要预测地图元素的类别和点坐标(例如道路边界、车道分隔带、人行横道等)。现有技术的方法主要基于点级表示学习,用于回归精确的点坐标。然而,这种流水线在获得元素级信息和处理元素级故障方面具有局限性,例如错误的元素形状或元素之间的纠缠。为了解决上述问题,我们提出了一个简单而有效的名为HIMap的HybrId框架,以充分学习和交互点级和元素级信息。具体来说,我们引入了一种称为HIQuery的混合表示来表示所有地图元素,并提出了一种点元素交互器来交互式地提取元素的混合信息,如点位置和元素形状,并将其编码到HIQuery中。此外,我们还提出了点-元素一致性约束,以增强点级和元素级信息之间的一致性。最后,集成HIQuery的输出点元素可以直接转换为地图元素的类、点坐标和掩码。我们在nuScenes和Argoverse2数据集上进行了广泛的实验,并始终优于以前的方法。值得注意的是,我们的方法在nuScenes数据集上实现了77.8mAP,显著优于以前的SOTA至少8.3mAP。

b73d501c3bd25022186f7371b762e337.png

总结来说,本文的主要贡献如下:

  • 我们提出了一种混合表示(即HIQuery)来表示HD地图中的所有元素,并提出了一个简单而有效的用于端到端矢量化HD地图构建的hybrid框架(即HIMap);

  • 为了同时预测准确的点坐标和元素形状,我们引入了点-元素交互器来提取点级别和元素级别的信息并进行交互;

  • 我们的方法在nuScenes和Argoverse2数据集上显著优于以前的工作,分别获得了77.8和72.7 mAP的最新结果。

相关工作回顾

高精地图构建。鸟瞰图(BEV)空间中的高精地图构建基于机载传感器观测生成地图,例如来自多视图相机的RGB图像和来自激光雷达的点云。现有的方法可分为两类:光栅化高精地图估计和矢量化高精地图构建。栅格化HD图估计被公式化为BEV空间中的语义分割任务。预测每个像素的语义类别。然而,由于缺乏实例级别的区别和地图元素的结构信息,光栅化的HD地图不是下游任务的理想表示。矢量化高精地图构建通过用一组地图元素表示地图来解决上述限制。每个映射元素通常由离散点的有序序列表示。在本文中,我们专注于矢量化高精地图的构建任务,并讨论如何利用点级和元素级信息来生成准确的矢量化元素。

矢量化高精地图构建。为了生成矢量化的高精地图,早期的工作提出了一种具有手工后处理的多任务框架。然而,启发式后处理可能会积累来自不同分支的错误,并限制模型的泛化能力。为了解决上述问题,后续的工作试图构建一个基于点级表示的端到端框架。VectorMapNet探索了关键点表示和从粗到细的两阶段网络。MapTR系列提出了点集和类似DETR的一阶段网络的置换等效建模。InsightMapper证明了利用内部实例点信息的有效性。最近的一些工作试图学习元素级别的信息。MapVR引入了可微分光栅化,并增加了元素级分割监督。BeMapNet首先检测地图元素,然后使用分段Bezier头对详细点进行回归。PivotNet设计了点到线掩码模块,将点级表示转换为元素级表示。然而,这些方法缺乏点和元素之间的信息交互。在本文中,我们提出了一种混合表示学习管道,以同时表示、学习和交互地图元素的点级和元素级信息。

车道线检测。车道检测的目的是预测道路上的可见车道,因此可以将其视为高精地图构建的一个子任务。许多现有的工作集中于单个透视图图像中的2D车道检测。传统的方法采用手工制作的特征和后处理技术来预测车道。随后的工作用深度网络取代了手工制作的特征检测器。探索并提出了基于不同车道表示(如点序列或参数曲线)的车道分割流水线和车道检测方法。最近的一些工作扩展到3D车道检测,并探索了多模态输入。相比之下,矢量化高精地图构建考虑了更多的地图元素类别,并输出了ego汽车整个周边区域的结果。

d5259bf6dad22c45a995a0c40f51d638.png

详解HIMap

ab164be455b4cd985f6f5cbbfa040ef9.png

框架概述

HIMap的整体框架如图3(a)所示。

输入:HIMap与各种车载传感器数据兼容,例如来自多视图相机的RGB图像、来自激光雷达的点云或多模态数据。这里我们以多视图RGB图像为例来说明HIMap。

BEV特征提取器:我们使用BEV特征提取器从多视图RGB图像中提取BEV特征。它包括一个从每个透视图中提取多尺度二维特征的主干,一个将多尺度特征细化并融合为单尺度特征的FPN,以及一个将二维特征映射为纯电动汽车特征的二维到纯电动汽车的特征转换模块。BEV特征可以表示为X。

HIQuery:为了充分学习地图元素的点级和元素级信息,我们引入HIQuery来表示地图中的所有元素。HIQuery是一组可学习的参数。

Hybrid Decoder:Hybrid Decoder通过将HIQuery与BEV特征X迭代交互来产生点元素集成的HIQuery。它包含多个层,每个层包括点元素交互器、自注意力、前馈网络(FFN)和多个预测头。

Point-element Interactor

点元素交互器的目标是交互式地提取地图元素的点级和元素级信息并将其编码到HIQuery中。两个层次的信息相互作用的动机来自于它们的互补性。点级信息包含局部位置知识,而元素级信息提供整体形状和语义知识。因此,该交互使得能够对地图元素的局部信息和整体信息进行相互细化。

如图3(b)所示,点元素交互器由点特征提取器、元素特征提取器和点元素杂交器组成。我们首先将查询分解为点查询和元素查询,然后,我们利用点和元素特征提取器从BEV特征中提取相关特征,并利用点-元素杂交器进行交互并将信息编码到HIQuery中。在这个过程中,通过在应用两个特征提取器时共享位置嵌入,并利用集成信息更新点元素混合器内的两个查询级别,实现了相互交互机制。

点特征提取器。要提取点级特征,如何采样并使锚点靠近元素是非常重要的。受可变形注意力和DAB DETR的启发,我们将锚点建模为一组可学习的2D点,并关注锚点周围的一小组关键采样点。第一层的锚点以[0,1]范围内的均匀分布随机初始化,迭代更新,并逐层前向。

f7da77d9f0c203c8c75d958d95f086c2.png 71f558be2136a096707f7db26cb11b28.png 09e21b0c921deb680468326967bab24b.png

元素特征提取器。我们使用基于Masked注意力的元素特征提取器来提取元素级特征。为了利用和增强点和元素之间的对应关系,点查询的位置嵌入与元素查询共享。

e06805e7f84924dfe1547d1e6dfe4f99.png

Point-element Hybrider。Point-element Hybrider.旨在交互并将点级和元素级信息编码到HIQuery中。它包括两个步骤,单级特征细化和跨级查询更新。

0b4fd84363d665650317bfc3fb149e06.png e6f9c1bfb9709f8548938122628f8c9a.png

Point-element Consistency

考虑到点级表示和元素级表示之间的原始差异,它们分别关注局部信息和整体信息,两级表示的学习也可能相互干扰。这将增加信息交互的难度,降低信息交互的有效性。因此,我们引入点-元素一致性约束来增强每个元素的点级和元素级信息之间的一致性。作为副产品,元素的可区分性也可以得到加强。

给定第l层中的点查询和元素查询,我们首先通过分别在point head和mask head中应用线性层来获得中间点级表示和元素级表示。然后,我们生成伪元素级表示作为点级表示的加权和,并将元素级相似性计算为:

841f1cef0158b080e52a8e8169daa28f.png

通过促进伪元素级表示和实际元素级表示之间的高度相似性,增强了点级信息和元素级信息之间的一致性。

实验

与SOTA对比

nuScenes效果。表1显示了将多视图RGB图像作为输入的nuScenes数据集上的结果的比较。我们的HIMap在简单和硬设置下都达到了最先进的性能(73.7,51.6mAP)。具体而言,在简单设置下,HIMap比之前的SOTA MapTRv2高5.0毫安。这验证了我们的混合表示在捕捉比点级表示更全面的元素信息方面的有效性。HIMap还将BeMapNet(之前的硬设置下的SOTA)提高了4.5 mAP。这证明了点元交互优于顺序利用两个级别的信息。此外,表3给出了多模态输入(多视图RGB图像和激光雷达点云)的结果。HIMap还实现了新的SOTA性能,24个时期为74.3 mAP,110个时期为77.8 mAP,分别超过先前的方法至少5.3和8.3 mAP。

152c21c8160310e6243474603603c588.png

Argoverse2上的结果。如表2所示,在Argoverse2数据集上,无论是在6个或24个时期的训练中,HIMap在简单和困难的设置下都始终超过以前的SOTA。在24个历元调度器的情况下,我们的方法在硬设置和简单设置下分别比MapTRv2高出3.5,2.2mAP。此外,我们观察到,我们的除法器类的结果在简单设置下低于MapTRv2,但在硬设置下更高。我们推测,对于严格的阈值(即0.2米),我们的HIMap会产生更多的TP。此外,在表4中,我们展示了在不同阈值下与MapTRv2的去尾结果比较。我们的HIMap确实为更严格的阈值(例如0.2、0.5米)带来了更大的改进。

1cfbe118f5ffae046eea4013eb528551.png

消融实验

在这一部分中,我们对HIQuery进行了分析,并从几个方面进行了研究,以说明所提出方法的有效性。除非另有规定,否则在以多视图RGB图像为输入的nuScenes val集上以ResNet50为主干进行实验,训练110个时期,并在简单设置下进行评估。

54525eff339d4fbc72d74240add6be60.png

HIQuery学到了什么?为了更好地理解HIQuery学到了什么以及点-元素交互的效果,我们在图4中可视化了不同层的单个地图元素的锚点的注意力图及其采样点和锚点掩码。我们可以观察到,与HIQuery内部的点查询和元素查询相对应的锚点和掩码分别关注元素的局部信息和整体信息。在分隔器示例中,第二层的锚点和遮罩延伸穿过目标分隔器和附近的边界。在第4层,它们都集中在目标分割器上,但锚点的方向仍然向左倾斜,并且锚点掩码的长度并不完美。在第6层,锚点和遮罩更适合目标分隔符。在人行横道示例中,在第二层,锚点向右漂移,并且锚点掩码包括目标人行横道外的额外像素。经过迭代学习和交互,锚点和遮罩都被转移到人行横道上。这些可视化验证了点元素交互有助于实现相互细化。

HIMap。在表5中,我们逐步研究了HIMap的几个关键设计,包括混合表示、点元素交互器和点元素一致性。我们首先通过调整MapTR的配置来构建点级表示学习基线,例如FPN、2D到BEV转换模块等。如表5的第一行所示,它实现了68.5mAP。然后,我们利用混合表示同时学习点级和元素级信息。元素级信息通过掩蔽注意力进行细化,并在分割丢失的情况下进行监督。该方法(第二排)达到70.6毫安时,比基线增加2.1毫安时。为了相互作用并实现两个层次的信息的相互细化,我们进一步用点元相互作用器取代了可变形和掩模。此设置(第三排)可获得73.1毫安时的电量,并带来2.5毫安时的额外增益。在添加点元素一致性后,HIMap最终获得73.7 mAP,确保了比基线增加5.2 mAP。

b4df795fc6e5b1fe0c006f3a14d02789.png

点元素交互器。点元交互中有几个关键因素,包括特征提取器之间是否共享位置嵌入,是否利用集成信息更新点查询和元素查询。相应地,我们将这些因素表示为“共享pos”、“inte-P”和“inte-E”,并在表6中对其进行研究。为了关注点元交互作用的效果,本部分没有采用点元一致性。在没有所有这些因素的情况下,它相当于在可变形和掩蔽注意力的情况下学习HIQuery,获得70.6 mAP。共享位置嵌入旨在利用和增强点和元素之间的对应关系,并带来1.0mAP增益(第二行)。利用集成信息只更新点查询、只更新元素查询或同时更新两个查询(第3行、第4行和第5行),分别带来0.5、1.2和1.5mAP的增益。这验证了利用集成信息来更新两个查询能够实现点和元素的相互细化。考虑到所有这些因素,点元件相互作用器最终带来了2.5mAP的增益。点元素一致性。我们调整点元素一致性约束的损失权重来观察效果。如表7所示,结果对损失权重不敏感,但过大的权重可能会导致两个级别的信息过于相似,从而降低点元素相互作用的效果。根据经验,我们将减肥设定为2.0,并达到73.7mAP。

可视化

a01c317414329795fa66890eb72a6efa.png

结论

在本文中,我们介绍了一种简单而有效的基于混合表示学习的HybrId框架(即HIMap),用于端到端矢量化HD地图构建。在HIMap中,我们引入了HIQuery来表示所有的地图元素,引入了一个点元素交互器来交互式地提取点级和元素级信息并将其编码到HIQuery中,引入了点元素一致性约束来加强两级信息之间的一致性。通过上述设计,HIMap在nuScenes和Argoverse2数据集上都实现了新的SOTA性能。

限制讨论。(1) 本文主要致力于提高地图重建精度,并将模型加速留给未来的工作。(2)目前所提出的方法构建二维高精地图。考虑到道路的高度变化对自动驾驶非常重要,如何预测准确的3D高精地图值得进一步探索。(3) 我们考虑了HIMap中的点元素一致性,但没有讨论HD映射在多个时间戳上的一致性。我们认为,挖掘时间信息和预测一致的高精地图是有价值的研究方向。

参考

[1] HIMap: HybrId Representation Learning for End-to-end Vectorized HD Map Construction

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

0fb506227305ff575a48e1c730b3a5cc.png 网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近2700人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

b1cd45367e1c42da653fd83ba340c79a.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦2D/3D目标检测、语义分割、车道线检测、目标跟踪、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、在线地图、点云处理、端到端自动驾驶、SLAM与高精地图、深度估计、轨迹预测、NeRF、Gaussian Splatting、规划控制、模型部署落地、cuda加速、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

3ae20d01a4e12045bf80afa5ced2dc3e.jpeg

④【自动驾驶之心】平台矩阵,欢迎联系我们!

290c44eae7a7ac6a6120e32aa3f2459c.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值