分割性能暴涨6%!最新多模态地图BEV融合网络MapFusion

作者 | Xiaoshuai Hao 编辑 | 深蓝AI

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『BEV感知』技术交流群

本文只做学术分享,如有侵权,联系删文

自动驾驶系统包括感知、预测、决策、规划等不同的功能模块。对于其中的自动驾驶规划模块而言,要想实现准确安全的路径规划,就需要利用自动驾驶车辆上配置的传感器采集周围的环境信息构建地图。

本文介绍了MapFusion:一种用于多模态地图构建的新型BEV特征融合网络。

©️【深蓝AI】编译

论文标题:MapFusion: A Novel BEV Feature Fusion Network for Multi-modal Map Construction

论文作者:Xiaoshuai Hao, Yunfeng Diao, Mengchuan Wei, Yifan Yang, Peng Hao, Rong Yin, Hui Zhang, Weiming Li, Shu Zhao, Yu Liu

论文地址:https://arxiv.org/abs/2502.04377   

f542ed810c0a301d1b1be55c73e5d022.png

▲图1| 自动驾驶系统中地图构建任务示意图©️【深蓝AI】编译

图1展示了高精地图(HD Map)与地图分割(Map Segmentation)两类地图构建任务示意图。

现有的地图构建算法根据所使用的传感器数据进行划分,大体可以分成三种。分别是基于纯视觉的、基于纯激光雷达的以及基于相机和激光雷达融合的。在这三类方法当中,由于多模态融合算法可以充分利用不同模态数据之间的信息互补优势,其性能明显高于其他两类单模态的地图构建算法。

近年来,学术界已经提出了不少采用多模态的地图构建算法,比如,X-Align采用基于元素相加的方式进行多模态BEV特征的融合过程;BEVFusion采用两种模态加权平均的BEV特征融合方式;HDMapNet采用两种不同模态通道拼接的方式完成BEV特征的融合。尽管上述融合方式取得了不错的性能,但是这些方法通常忽略了不同模态特征之间的交互过程,影响了最终的地图构建效果。

在本文中,提出了跨模态交互变换器(CIT)模块,通过采用自注意力的方式实现了两种模态BEV特征之间的更加有效交互。同时,文中还进一步提出了双向动态融合(DDF)模块实现自适应的从不同模态之间选择有价值的信息构建最终的BEV融合特征。

本文的主要贡献总结如下:

  • 提出了一种名为MapFusion的多模态地图构建算法,实现对于不同模态之间的更加高效的交互和集成,提高最终的高精地图和地图分割任务的效果。

  • 为了解决视觉和点云模态语义特征不对齐问题,设计了名为跨模态交互变换器模块,通过自注意力的方式实现两类模态特征的有效交互。

  • 为了更好的解决两类模态的特征融合问题,提出了名为双向动态融合模块,自适应的从两类特征中选择有价值的信息完成融合特征的构建。

  • 大量实验表明,提出的MapFusion算法模型高于nuScenes数据集中高精地图和BEV地图分割任务的SOTA算法3.6%和6.2%

a48f764cf47fa9eb8952658ed16c62a8.png

MapFusion算法模型的网络结构如图2所示。具体而言,给定传感器采集的环视图像和点云数据,分别利用2D编码器和3D编码器完成各自模态的特征提取和BEV特征构建;然后将两个模态的BEV特征喂入提出的跨模态交互变换器中实现两类特征的交互,接下来利用双向动态融合模块实现两类特征的融合,最后接Map Decoder输出地图的构建结果。

2bdb984b7323a8d6b42bff0c5f9011ba.jpeg

▲图2| MapFusion算法模型的整体框架图©️【深蓝AI】编译

■ 1.1.  跨模态交互变换器(CIT)

在上文中提到,由于不同模态之间存在语义不对齐问题,本文采用了跨模态交互变换器来缓解这一问题的发生。具体而言,CIT模块的整体流程可以总结为以下几步。

1.将相机分支和雷达分支输出的BEV特征进行展平,并按照矩阵的顺序进行排列,从而得到和。

2.为了能够让不同模态的token在训练的过程中进行区分,本文添加了PE位置编码。

3.由于跨模态交互变换器采用了Transformer中自注意力的思想,所以将添加了位置编码后的多模态数据利用线性层进行转换,得到矩阵。

4.按照Transformer中自注意力的计算公式,计算 之间的相似性矩阵,最终与   进行加权;同时为了获得来自不同位置的子空间的多种复杂注意力关系,本文也采用了多头注意力的计算方式完成自注意力部分的计算。

5.最后对上一步得到的多头注意力输出结果采用非线性变换的方式得到输出特征 。这一步得到的输出特征会被转换为和用于后续的特征融合。

■ 1.2.  双向动态融合模块(DDF)

本文提出了双向动态融合模块实现多模态特征的融合。与其他主流的特征融合方法相比,提出的双向动态融合模块可以自适应的从两种不同的模态中选取有价值的特征信息来完成最终多模态融合特征的构建。提出的方法与其他主流融合方法的对比如图3所示。

7602bc66c4b76f8d3f6994a8c8aa75a9.png

▲图3| 不同特征融合方案与本文提出的双向动态特征融合模块区别示意图©️【深蓝AI】编译  

具体而言,本文提出的双向动态融合模块的输入是视觉和激光雷达的多模态特征。为了生成有意义的融合权重,本文将两类模态的特征进行加和并实现空间特征的聚合,从而得到相应的加权系数。其中代表sigmoid激活函数,代表线性层。

为了实现自适应的模态加权过程,从不同模态特征中选择有价值的信息,本文将公式(4)中的得到的权重与两类模态进行加权,并将二者加权后的特征进行通道维度的拼接,然后采用卷积实现降维减少计算量。

最终融合后的特征将会输入到模块中完成地图的构建任务

95b14c17c461cdbc8a41d11fc30be6d3.png

本文研究在nuScenes和Argoverse2两类自动驾驶数据集上进行了实验分析。在高精地图构建任务中,整体的实验设置遵循MapTR模型的配置方案。在地图分割任务中,整体实验设置遵循BEVFusion的配置方案。

图4和图5分别展示了MapFusion在nuScenes和Argoverse2数据集上高精地图构建任务与其他算法模型的比较结果。通过结果可以看出,MapFusion算法模型在两个数据集上均实现了最佳的结果。

d9c7aa244a1e846a46a1c6ac0891990a.png

▲图4| 不同算法模型高精地图构建任务在nuScenes数据集上的对比©️【深蓝AI】编译

4466b58a9bf945fe4fe1ae5df8a29a56.png

▲图5| 不同算法模型高精地图构建任务在Argoverse2数据集上的对比©️【深蓝AI】编译

图6和图7展示了MapFusion在nuScenes和Argoverse2数据集上地图构建任务与其他算法模型的比较结果。通过结果可以看出,无论是哪类数据集,MapFusion均展现出了最佳的性能指标。

9db2914a51b1c0824e20252021541e46.png

▲图6| 不同算法模型地图分割任务在nuScenes数据集上的对比©️【深蓝AI】编译

b08fb56219c302eae959ba265ab01289.png

▲图7| 不同算法模型地图分割任务在Argoverse2数据集上的对比©️【深蓝AI】编译


论文中还通过消融实验来评估提出的跨模态交互变换器和双向动态融合模块的有效性,通过图8的实验结果证明了两类模块都可以提升模型的最终表现性能。

656e8c3e48a77735be4d13f3f7b380d7.png

▲图8| DDF和CIT模块的消融对比实验©️【深蓝AI】编译

此外,论文为了更加直观的展示所提出的两个创新点对于高精地图构建和地图分割任务的贡献,对相关任务的结果进行了可视化分析,如图9和图10所示,进一步证明了DDF和CIT模块的性能。

2af6108958dae84cd56d4a33995a96bb.png

▲图9| DDF和CIT模块在地图分割任务上的效果可视化图©️【深蓝AI】编译

4a62fdf0cbff8ce6bc238f8131bca274.png

▲图10| DDF和CIT模块在高精地图构建任务上的效果可视化图©️【深蓝AI】编译

b412b347834c4b2d579f58ff4286d675.png

本文主要聚焦于相机-激光雷达多模态的地图构建任务,提出了一种新颖的多模态地图构建算法 MapFusion。为了缓解两类不同模态特征之间的语义不对齐问题,提出了跨模态交互变换器模块,通过自注意力的方式达到有效交互的目的。

此外,本文还提出了双向动态融合模块实现自适应的选择不同模态特征的有效信息,构建更加精准的多模态融合特征。在nuScenes和Argoverse2数据集上的大量实验表明,提出的MapFusion在高精地图构建和地图分割任务上均实现了最佳的表现性能。 

Ref:

MapFusion: A Novel BEV Feature Fusion Network for Multi-modal Map Construction

① 自动驾驶论文辅导来啦

e95e52e1a3d602f090eb32b2dbe7baaa.jpeg

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描加入

fb448a2a587d64379b18a5301191c9e9.png

 ③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

e393e077d282467fd2fcccdb263693d3.png

网页端官网:www.zdjszx.com

④【自动驾驶之心】全平台矩阵

f70b50f8a2634862efe534fefbf82c8c.png

在电子设计自动(EDA)领域,Verilog HDL 是一种重要的硬件描述语言,广泛应用于数字系统的设计,尤其是在嵌入式系统、FPGA 设计以及数字电路教学中。本文将探讨如何利用 Verilog HDL 实现一个 16×16 点阵字符显示功能。16×16 点阵显示器由 16 行和 16 列的像素组成,共需 256 个二进制位来控制每个像素的亮灭,常用于简单字符或图形显示。 要实现这一功能,首先需要掌握基本的逻辑门(如门、或门、非门、非门、或非门等)和组合逻辑电路,以及寄存器和计数器等时序逻辑电路。设计的核心是构建一个模块,该模块接收字符输入(如 ASCII 码),将其转换为 16×16 的二进制位流,进而驱动点阵的 LED 灯。具体而言,该模块包含以下部分:一是输入接口,通常为 8 位的 ASCII 码输入,用于指定要显示的字符;二是内部存储,用于存储字符对应的 16×16 点阵数据,可采用寄存器或分布式 RAM 实现;三是行列驱动逻辑,将点阵数据转换为驱动 LED 矩阵的信号,包含 16 个行输出线和 16 个列使能信号,按特定顺序选通点亮对应 LED;四是时序控制,通过计数器逐行扫描,按顺序控制每行点亮;五是复用逻辑(可选),若点阵支持多颜色或亮度等级,则需额外逻辑控制像素状态。 设计过程中,需用 Verilog 代码描述上述逻辑,并借助仿真工具验证功能,确保能正确将输入字符转换为点阵显示。之后将设计综合到目标 FPGA 架构,通过配置 FPGA 实现硬件功能。实际项目中,“led_lattice”文件可能包含 Verilog 源代码、测试平台文件、配置文件及仿真结果。其中,测试平台用于模拟输入、检查输出,验证设计正确性。掌握 Verilog HDL 实现 16×16 点阵字符显示,涉及硬件描述语言基础、数字逻辑设计、字符编码和 FPGA 编程等多方面知识,是学习
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值