如何利用transformer有效关联激光雷达-毫米波雷达-视觉特征?

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心多传感器融合技术交流群

论文作者 | 自动驾驶Daily

编辑 | 自动驾驶之心

笔者个人理解

自动驾驶的基础任务之一是三维目标检测,而现在许多方法都是基于多传感器融合的方法实现的。那为什么要进行多传感器融合?无论是激光雷达和相机融合,又或者是毫米波雷达和相机融合,其最主要的目的就是利用点云和图像之间的互补联系,从而提高目标检测的准确度。随着Transformer架构在计算机视觉领域的不断应用,基于注意力机制的方法提高了多传感器之间融合的精度。分享的两篇论文便是基于此架构,提出了新颖的融合方式,以更大程度地利用各自模态的有用信息,实现更好的融合。

TransFusion:

主要贡献

激光雷达和相机是自动驾驶中两种重要的三维目标检测传感器,但是在传感器融合上,主要面临着图像条件差导致检测精度较低的问题。基于点的融合方法是将激光雷达和相机通过硬关联(hard association)进行融合,会导致一些问题:a)简单地拼接点云和图像特征,在低质量的图像特征下,检测性能会严重下降;b)寻找稀疏点云和图像的硬关联会浪费高质量的图像特征并且难以对齐。

因此,此论文提出一种激光雷达和相机的融合框架TransFusion,来解决两种传感器之间的关联问题,主要贡献如下:

  • 提出一种基于transformer的激光雷达和相机的3D检测融合模型,对较差的图像质量和传感器未对齐表现出优异的鲁棒性;

  • 为对象查询引入了几个简单而有效的调整,以提高图像融合的初始边界框预测的质量,还设计了一个图像引导查询初始化模块来处理在点云中难以检测到的对象;

  • 不仅在nuScenes实现了先进的三维检测性能,还将模型扩展到三维跟踪任务,并取得了不错的成果。

模块详解

00e6eee19d16114b49cce8a261233382.png
图1 TransFusion的整体框架

为了解决上述的图像条件差以及不同传感器之间的关联问题,提出了一个基于Transformer的融合框架——TransFusion。该模型依赖标准的3D和2D主干网络提取LiDAR BEV特征和图像特征,然后检测头上采用两层transformer解码器组成:第一层解码器利用稀疏的点云生成初始边界框;第二层解码器将第一层的对象查询与图像特征相关联,以获得更好的检测结果。其中还引入了空间调制交叉注意力机制(SMCA)和图像引导的查询初始化策略以提高检测精度。

Query Initialization(查询初始化)

c9ad27f3f48662ac0859a5c0099163c8.png

LiDAR-Camera Fusion

如果一个物体只包含少量的激光雷达点时,那么只能获得相同数量的图像特征,浪费了高质量的图像语义信息。所以该论文保留所有的图像特征,使用Transformer中交叉注意机制和自适应的方式进行特征融合,使网络能够自适应地从图像中提取位置和信息。为了缓解LiDAR BEV特征和图像特征来自不同的传感器的空间不对齐问题,设计了一个空间调制交叉注意模块(SMCA),该模块通过围绕每个查询投影的二维中心的二维圆形高斯掩模对交叉注意进行加权。

Image-Guided Query Initialization(图像引导查询初始化)

1410a0f66ea0ab478dba3c8a9f78fff6.png
图2 图像引导查询模块

该模块同时利用激光雷达和图像信息作为对象查询,就是通过将图像特征和激光雷达BEV特征送入交叉关注机制网络,投射到BEV平面上,生成融合的BEV特征。具体如图2所示,首先沿着高度轴折叠多视图图像特征作为交叉注意机制网络的键值,而激光雷达BEV特征作为查询送入注意力网络,得到融合的BEV特征,使用进行热图预测,并与仅激光雷达的热图Ŝ做平均得到最终的热图Ŝ来选择和初始化目标查询。这样的操作使得模型能够检测到在激光雷达点云中难以检测到的目标。

实验

数据集和指标

nuScenes数据集是一个用于3D检测和跟踪的大规模自动驾驶数据集,包含700、150和150个场景,分别用于训练、验证和测试。每帧包含一个激光雷达点云和六个覆盖360度水平视场的校准图像。对于3D检测,主要指标是平均平均精度(mAP)和nuScenes检测分数(NDS)。mAP是由BEV中心距离而不是3D IoU定义的,最终mAP是通过对10个类别的0.5m, 1m, 2m, 4m的距离阈值进行平均来计算的。NDS是mAP和其他属性度量的综合度量,包括平移、比例、方向、速度和其他方框属性。。

Waymo数据集包括798个用于训练的场景和202个用于验证的场景。官方的指标是mAP和mAPH (mAP按航向精度加权)。mAP和mAPH是基于3D IoU阈值定义的,车辆为0.7,行人和骑自行车者为0.5。这些指标被进一步分解为两个难度级别:LEVEL1用于超过5个激光雷达点的边界框,LEVEL2用于至少有一个激光雷达点的边界框。与nuScenes的360度摄像头不同,Waymo的摄像头只能覆盖水平方向的250度左右。

训练 在nuScenes数据集上,使用DLA34作为图像的2D骨干网络并冻结其权重,将图像大小设置为448×800;选择VoxelNet作为激光雷达的3D骨干网络。训练过程分成两个阶段:第一阶段仅以激光雷达数据作为输入,以第一层解码器和FFN前馈网络训练3D骨干20次,产生初始的3D边界框预测;第二阶段对LiDAR-Camera融合和图像引导查询初始化模块进行6次训练。左图是用于初始边界框预测的transformer解码器层架构;右图是用于LiDAR-Camera融合的transformer解码器层架构。

8ae7087bd4847045bdc2acf95dc0f042.png
图3 解码器层设计

与最先进方法比较

首先比较TransFusion和其他SOTA方法在3D目标检测任务的性能,如下表1所示的是在nuScenes测试集中的结果,可以看到该方法已经达到了当时的最佳性能(mAP为68.9%,NDS为71.7%)。而TransFusion-L是仅使用激光雷达进行检测的,其检测的性能明显优于先前的单模态检测方法,甚于超过了一些多模态的方法,这主要是由于新的关联机制和查询初始化策略。而在表2中则是展示了在Waymo验证集上LEVEL 2 mAPH的结果。

75efbd0d72db6db0d58df74311ad8b78.png
表1 与SOTA方法在nuScenes测试中的比较
95ea67f8ac97dd658da2487f09c7a5a8.png
表2 Waymo验证集上的LEVEL 2 mAPH

对恶劣图像条件的鲁棒性

以TransFusion-L为基准,设计不同的融合框架来验证鲁棒性。其中三种融合框架分别是逐点拼接融合激光雷达和图像特征(CC)、点增强融合策略(PA)和TransFusion。如表3中显示,将nuScenes数据集划分成白天和黑夜,TransFusion的方法在夜间将会带来更大的性能提升。在推理过程中将图像的特征设置为零,以达到在每一帧随机丢弃若干图像的效果,那么在表4中可以看到,在推理过程中某些图像不可用时,检测的性能会显著下降,其中CC和PA的mAP分别下降23.8%和17.2%,而TransFusion仍保持在61.7%。传感器未校准的情况也会大大影响3D目标检测的性能,实验设置从相机到激光雷达的变换矩阵中随机添加平移偏移量,如图4所示,当两个传感器偏离1m时,TransFusion的mAP仅下降0.49%,而PA和CC的mAP分别下降2.33%和2.85%。

a4b32ce416bf7d2eb1125fc3b1913aac.png
表3 白天和夜间的mAP
204928985225e12540efaa0ea303876b.png
表4 在不同数量的图像下的mAP
d1d7aaa700799719575599c28452d8a3.png
图4 在传感器未对齐情况下的mAP

消融实验

由表5 d)-f)的结果可看出,在没有进行查询初始化的情况下,检测的性能下降很多,虽然增加训练轮数和解码器层数可以提高性能,但是仍旧达不到理想效果,这也从侧面证明了所提出来的初始化查询策略能够减小网络层数。而如表6所示,图像特征融合和图像引导查询初始化分别带来4.8%和1.6%的mAP增益。在表7中,通过在不同范围内精度的比较,TransFusion与仅激光雷达的检测相比,在难以检测的物体或者遥远区域的检测的性能都得到了提升。

991c75e6cd8213e8f74d7cb3a9fad41a.png
表5 查询初始化模块的消融实验
1ddc73001f631291f54f269530a47417.png
表6 融合部分的消融实验
6c2c9a9fa850868d7cece4af7efe710c.png
表7 物体中心到自我车辆之间的距离(以米为单位)

结论

设计了一个有效且稳健的基于Transformer的激光雷达相机3D检测框架,该框架具有软关联机制,可以自适应地确定应该从图像中获取的位置和信息。TransFusion在nuScenes检测和跟踪排行榜上达到最新的最先进的结果,并在Waymo检测基准上显示了具有竞争力的结果。大量的消融实验证明了该方法对较差图像条件的鲁棒性。

DeepInteraction:

主要贡献:

主要解决的问题是现有的多模态融合策略忽略了特定于模态的有用信息,最终阻碍了模型的性能。点云在低分辨率下提供必要的定位和几何信息,图像在高分辨率下提供丰富的外观信息,因此跨模态的信息融合对于增强3D目标目标检测性能尤为重要。现有的融合模块如图1(a)所示,将两个模态的信息整合到一个统一的网络空间中,但是这样做会使得部分信息无法融合到统一的表示里,降低了一部分特定于模态的表示优势。为了克服上述限制,文章提出了一种新的模态交互模块(图1(b)),其关键思想是学习并维护两种特定于模态的表示,从而实现模态间的交互。主要贡献如下:

  • 提出了一种新的多模态三维目标检测的模态交互策略,旨在解决以前模态融合策略在每个模态中丢失有用信息的基本限制;

  • 设计了一个带有多模态特征交互编码器和多模态特征预测交互解码器的DeepInteraction架构。

dc6f4c1ffb52ff412b3e69067e43ffca.png
图1 不同的融合策略

模块详解

多模态表征交互编码器 将编码器定制为多输入多输出(MIMO)结构:将激光雷达和相机主干独立提取的两个模态特定场景信息作为输入,并生成两个增强后的特征信息。每一层编码器都包括:i)多模态特征交互(MMRI);ii)模态内特征学习;iii)表征集成。

26c5b44d3c94d4d1adc15887ba8cfd8c.png
图2 多模态表征交互模块
152d6519de8194edcee023a398df3b93.png 19493563e9e0fb8a7b60fe463b4d7723.png d5406aa4d5a5c0a258392ad86128dca2.png 1877dec0aac1d25424782e47059a9fac.png 41404d42546f0ba13042edfccaba24b3.png
图3 多模态预测交互模块

实验

数据集和指标同TransFusion的nuScenes数据集部分。

实验细节 图像的主干网络是ResNet50,为了节省计算成本,在输入网络之前将输入图像重新调整为原始大小的1/2,并在训练时冻结图像分支的权重。体素大小设置为(0.075m,0.075m,0.2m),检测范围设为X轴和Y轴是[-54m,54m],Z轴是[-5m,3m],设计2层编码器层和5层级联的解码器层。另外还设置了两种在线提交测试模型:测试时间增加(TTA)和模型集成,将两个设置分别称为DeepInteraction-large和DeepInteraction-e。其中DeepInteraction-large使用Swin-Tiny作为图像骨干网络,并且将激光雷达骨干网络中卷积块的通道数量增加一倍,体素大小设置为[0.5m,0.5m,0.2m],使用双向翻转和旋转偏航角度[0°,±6.25°,±12.5°]以增加测试时间。DeepInteraction-e集成了多个DeepInteraction-large模型,输入的激光雷达BEV网格尺寸为[0.5m,0.5m]和[1.5m,1.5m]。

根据TransFusion的配置进行数据增强:使用范围为[-π/4,π/4]的随机旋转,随机缩放系数为[0.9,1.1],标准差为0.5的三轴随机平移和随机水平翻转,还在CBGS中使用类平衡重采样来平衡nuScenes的类分布。和TransFusion一样采用两阶段训练的方法,以TransFusion-L作为仅激光雷达训练的基线。使用单周期学习率策略的Adam优化器,最大学习率1×10−3,权衰减0.01,动量0.85 ~ 0.95,遵循CBGS。激光雷达基线训练为20轮,激光雷达图像融合为6轮,批量大小为16个,使用8个NVIDIA V100 GPU进行训练。

与最先进方法比较

068a99ed4a119a2719bd07530d57119f.png
表1 在nuScenes测试集上与最先进方法的比较

如表1所示,DeepInteraction在所有设置下都实现了最先进的性能。而在表2中分别比较了在NVIDIA V100、A6000和A100上测试的推理速度。可以看到,在取得高性能的前提下,仍旧保持着较高的推理速度,验证了该方法在检测性能和推理速度之间实现了优越权衡。

21a5928124b3763800b937382f1346ef.png
表2 推理速度比较

消融实验

解码器的消融实验

在表3(a)中比较了多模态交互预测解码器和DETR解码器层的设计,并且使用了混合设计:使用普通的DETR解码器层来聚合激光雷达表示中的特征,使用多模态交互预测解码器(MMPI)来聚合图像表示中的特征(第二行)。MMPI明显优于DETR,提高了1.3% mAP和1.0% NDS,具有设计上的组合灵活性。表3(c)进一步探究了不同的解码器层数对于检测性能的影响,可以发现增加到5层解码器时性能是不断提升的。最后还比较了训练和测试时采用的查询数的不同组合,在不同的选择下,性能上稳定的,但以200/300作为训练/测试的最佳设置。

7fd5101ea037d69bc6a4ebf48f7d877f.png
表3 解码器的消融实验

编码器的消融实验

从表4(a)中可以观察到:(1)与IML相比,多模态表征交互编码器(MMRI)可以显著提高性能;(2) MMRI和IML可以很好地协同工作以进一步提高性能。从表4(b)中可以看出,堆叠编码器层用于迭代MMRI是有益的。

d19639cbaae5c7d4e244a8794f0dad45.png
表4 编码器的消融实验

激光雷达骨干网络的消融实验

使用两种不同的激光雷达骨干网络:PointPillar和VoxelNet来检查框架的一般性。对于PointPillars,将体素大小设置为(0.2m, 0.2m),同时保持与DeepInteraction-base相同的其余设置。由于提出的多模态交互策略,DeepInteraction在使用任何一种骨干网时都比仅使用lidar基线表现出一致的改进(基于体素的骨干网提高5.5% mAP,基于支柱的骨干网提高4.4% mAP)。这体现了DeepInteraction在不同点云编码器中的通用性。

3049cc7a0d5f130051841d294462636b.png
表5不同激光雷达主干网的评估

结论

在这项工作中,提出了一种新的3D目标检测方法DeepInteraction,用于探索固有的多模态互补性质。这一关键思想是维持两种特定于模态的表征,并在它们之间建立表征学习和预测解码的相互作用。该策略是专门为解决现有单侧融合方法的基本限制而设计的,即由于其辅助源角色处理,图像表示未得到充分利用。

两篇论文的总结:

以上的两篇论文均是基于激光雷达和相机融合的三维目标检测,从DeepInteraction中也可以看到它是借鉴了TransFusion的进一步工作。从这两篇论文中可以总结出多传感器融合的一个方向,就是探究更高效的动态融合方式,以关注到更多不同模态的有效信息。当然了,这一切建立在两种模态均有着高质量的信息。多模态融合在未来的自动驾驶、智能机器人等领域都会有很重要的应用,随着不同模态提取的信息逐渐丰富起来,我们能够利用到的信息将会越来越多,那么如何将这些数据更高效的运用起来也是一个值得思考的问题。

参考文献:

[1]TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers
[2]DeepInteraction: 3D Object Detection via Modality Interaction

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

3bfec571893bb2a6d8ea732b342cf146.png 网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

8d303a62cd3fd92a0318a23aa80ed0bf.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!

自动驾驶感知:目标检测、语义分割、BEV感知、毫米波雷达视觉融合、激光视觉融合、车道线检测、目标跟踪、Occupancy、深度估计、transformer、大模型、在线地图、点云处理、模型部署、CUDA加速等技术交流群;

多传感器标定:相机在线/离线标定、Lidar-Camera标定、Camera-Radar标定、Camera-IMU标定、多传感器时空同步等技术交流群;

多传感器融合:多传感器后融合技术交流群;

规划控制与预测:规划控制、轨迹预测、避障等技术交流群;

定位建图:视觉SLAM、激光SLAM、多传感器融合SLAM等技术交流群;

三维视觉:三维重建、NeRF、3D Gaussian Splatting技术交流群;

自动驾驶仿真:Carla仿真、Autoware仿真等技术交流群;

自动驾驶开发:自动驾驶开发、ROS等技术交流群;

其它方向:自动标注与数据闭环、产品经理、硬件选型、求职面试、自动驾驶测试等技术交流群;

扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

a6e4ed634eed33c8d36c322b7383ac3e.jpeg

④【自动驾驶之心】平台矩阵,欢迎联系我们!

39e3df65f5fca61bb042d82049abb413.jpeg

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值