ECCV'24开源 | HRMapNet：利用历史栅格化地图增强矢量化地图感知

最新推荐文章于 2025-03-23 00:42:29 发布

3Ｄ视觉工坊

最新推荐文章于 2025-03-23 00:42:29 发布

阅读量665

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247703251&idx=3&sn=fb5c49cc78285ab1e3676e7a34c03c06&chksm=fa3e6130a904c3a7d4387b7fbbebcd8de7d09ce3e741e7765040e6e292184c055f8c8d70860d&scene=126&sessionid=0

版权

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 这篇文章干了啥？

高清（HD）地图包含矢量地图元素的位置和结构（如车道分隔线、人行横道和道路边界），在自动驾驶车辆的导航中发挥着至关重要的作用。传统上，HD地图是通过离线方式构建的，利用基于SLAM的方法和复杂的注释与矢量化流程。然而，构建和维护HD地图的高昂成本严重阻碍了自动驾驶技术的发展。因此，研究人员开始转向使用车载传感器进行在线地图感知。

自动驾驶中使用的HD地图是一种矢量地图，是每个地图元素的点集集合。这种矢量表示对包括运动预测和规划在内的下游任务非常友好。一些现有工作将地图感知视为分割任务，并生成栅格地图，即记录每个位置语义标签的像素矩形网格。然而，栅格地图缺乏实例信息，且需要复杂的处理才能转换为所需的矢量地图。

为解决上述限制，最近的工作MapTR将HD地图感知定义为点集预测任务，并利用DETR直接在鸟瞰图（BEV）空间中预测矢量地图元素。随后，提出了不同的方法来改进在线矢量地图感知。这一趋势引发了可能放弃自动驾驶中离线HD地图的期望。然而，仅依赖车载传感器进行在线地图感知面临挑战。包括恶劣天气或遮挡在内的一些挑战性条件会显著影响其准确性和鲁棒性。

在本文中，我们想要强调历史地图的重要作用。但与传统的高成本HD地图不同，由于在线地图感知性能的提高，我们可以降低对地图的要求并保持低成本。我们提出了HRMapNet，一个旨在维护和利用全局历史栅格地图进行矢量地图感知的新型框架。在这里，我们选择栅格地图来保留历史信息，原因如下：1）矢量地图可以容易且有效地栅格化；2）将局部栅格地图合并/检索到/从全局地图中非常直接；3）栅格地图为搜索所需地图元素提供了清晰的先验信息；4）栅格地图占用的内存很小。

如图1所示，HRMapNet的流程中，在线感知得到的矢量地图被栅格化，然后用于更新全局历史地图。对于在线地图感知，从当前感知范围内检索局部栅格地图，并作为车载传感器的补充。地图更新和检索可以轻松实现。这种流程可以与大多数现有的最先进（SOTA）在线矢量地图感知方法相结合。

维护的全局历史栅格地图可以从空开始，并根据在线感知结果逐渐更新。当重新访问先前位置时，检索的局部地图可以通过提供额外的先验信息来增强地图感知。在实践中，这样的历史地图甚至可以由一群车辆共同构建和维护。然后，我们的方法可以扩展到促进在线地图感知的众包信息。

现有的矢量地图感知方法通常将车载图像编码为BEV特征，并使用可学习的查询来解码所需的地图元素。为了在这个成熟的框架中充分利用历史栅格地图，我们提出了两个新颖模块来增强BEV特征和地图元素查询。具体来说，我们引入了一个地图特征聚合模块，用于从图像和检索的栅格地图中编码特征，以弥补仅从车载图像中提取的特征不足。此外，我们将检索的栅格地图编码为先验嵌入，并设计了一个查询初始化模块，其中基础地图元素查询首先与这些地图先验嵌入进行交互。然后，初始化的查询可以更高效地搜索所需的地图元素。因此，HRMapNet利用车载图像和维护的历史栅格地图来实现优越的性能。

下面一起来阅读一下这项工作~

1. 论文信息

标题：Enhancing Vectorized Map Perception with Historical Rasterized Maps

作者：Xiaoyu Zhang, Guangwei Liu, Zihao Liu, Ningyi Xu, Yunhui Liu, Ji Zhao

机构：The Chinese University of Hong Kong、Huixi Technology、Shanghai Jiao Tong University

原文链接：https://arxiv.org/abs/2409.00620

2. 摘要

在自动驾驶领域，人们对鸟瞰(BEV)空间的端到端在线矢量化地图感知越来越感兴趣，并期望它能够取代传统的高成本离线高清(HD)地图。然而，当仅依靠机载传感器时，这些方法的准确性和鲁棒性在具有挑战性的条件下很容易受到损害，例如闭塞或恶劣天气。在本文中，我们提出HRMapNet，利用低成本的历史光栅化地图来增强在线矢量化地图的感知。历史光栅化地图可以根据过去预测的矢量化结果轻松构建，并提供有价值的补充信息。为了充分利用历史地图，我们提出了两个新的模块来增强BEV特征和地图元素查询。对于BEV特征，我们采用特征聚合模块来编码来自车载图像和历史地图的特征。对于地图元素查询，我们设计了一个查询初始化模块，赋予查询历史地图的先验知识。这两个模块有助于在在线感知中利用地图信息。我们的HRMapNet可以与大多数在线矢量化地图感知方法集成。我们将它集成到两种最先进的方法中，显著提高了它们在nuScenes和Argoverse 2数据集上的性能。

3. 效果展示

4. 主要贡献

我们的主要贡献如下：

我们提出了HRMapNet框架，利用历史栅格地图进行在线矢量地图感知。过去预测的矢量地图被栅格化以更新全局历史栅格地图，该地图作为补充信息有利于后续的在线地图感知。

我们设计了两个模块来增强BEV特征和可学习的地图元素查询，以利用历史地图。对于BEV特征，我们采用BEV特征聚合模块来从图像和检索的栅格地图中编码特征。对于地图元素查询，我们设计了查询初始化模块以高效地搜索所需的地图元素。这两个模块都提高了在线感知性能。推荐课程：Transformer如何在自动驾驶领域一统江湖！。

我们将HRMapNet与两种SOTA方法（MapTRv2和StreamMapNet）相结合，并在相同设置下在nuScenes和Argoverse 2数据集上展示了显著的改进。我们还提供了额外的结果来展示其鲁棒性和在实际自动驾驶应用中的潜在用途。

5. 基本原理是啥？

我们提出的HRMapNet旨在作为现有最先进（SOTA）在线矢量地图感知方法的补充。如图2所示，HRMapNet维护一个全局历史光栅化地图以辅助在线感知。以周围图像为输入，从共享主干网络中提取二维特征，并将其转换为鸟瞰图（BEV）空间。我们引入了一个地图编码器和特征聚合模块，以从车载摄像头和检索到的局部地图中获取增强的BEV特征。此外，我们还设计了一个新颖的查询初始化模块，该模块位于原始地图解码器之前。该模块旨在使基础查询具备来自局部地图的先验信息，从而更有效地搜索所需的地图元素。最后，直接从预测头预测矢量地图元素，并将其光栅化以合并到全局地图中。

6. 实验结果

7. 总结 & 未来工作

在本文中，我们提出通过维护一个全局光栅化地图来利用历史信息，以改进在线矢量地图感知。该全局光栅化地图可以很容易地从过去的预测结果中构建和维护。我们将这些历史光栅化地图用作BEV特征聚合和查询初始化的补充信息。所提出的框架与大多数现有的在线矢量地图感知方法兼容。实验证明，我们提出的HRMapNet能够显著提升两种最先进的在线矢量地图感知方法的性能。我们期望HRMapNet能够成为众包地图感知的基础：由一群自动驾驶车辆维护一个准确的全局光栅化地图，并作为每辆车进行准确在线矢量地图感知的先验信息。

局限性。我们提出的HRMapNet主要关注如何利用历史光栅化地图进行在线矢量地图感知。我们没有设计复杂的地图维护方法，而是仅采用了一种简单但有效的、来自机器人占用网格映射的方法来将局部预测合并到全局地图中。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

▲长按扫码添加助理：cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球，已沉淀6年，星球内资料包括：秘制视频课程近20门（包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网：www.3dcver.com

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。