TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers

一、摘要

二、介绍

具体来说,我们设计了一种使用两个变压器解码器层作为检测头的顺序融合方法。

据我们所知,我们是第一个使用激光雷达相机3D检测变压器。我们的第一个解码器层利用一组稀疏的对象查询来从激光雷达特征中生成初始边界框。与2D中独立于输入的对象查询不同[2,44],我们使对象查询依赖于输入和类别感知,从而使查询具有更好的位置和类别信息。接下来,第二个转换器解码器层自适应地融合对象查询与空间和上下文关系相关的有用图像特征。我们通过空间约束初始边界框周围的交叉注意来利用局域归纳偏差,以帮助网络更好地访问相关位置。我们的融合模块不仅为对象查询提供了丰富的语义信息,而且由于激光雷达点与图像像素之间的关联是以一种软的、自适应的方式建立的,因此对较差的图像条件具有更强的鲁棒性。最后,为了处理点云中难以检测的目标,我们引入了图像引导的查询初始化模块,在查询初始化阶段引入图像引导。

1. 我们的研究探讨了激光雷达-相机融合的固有困难,并揭示了稳健融合的一个关键方面,即软关联机制。

2. 我们提出了一种新的基于变压器的激光雷达与相机的3D检测融合模型,该模型以一种细心的方式进行细粒度融合,并对退化的图像质量和传感器错位表现出优异的鲁棒性。

3.我们为对象查询引入了几个简单而有效的调整,以提高图像融合的初始边界框预测的质量。还设计了一个图像引导查询初始化模块来处理在点云中难以检测到的对象。

4. 我们在nuScenes上实现了最先进的3D检测性能,在Waymo上取得了具有竞争力的结果。我们还将我们的模型扩展到3D跟踪任务,并在nuScenes跟踪挑战的排行榜中获得第一名。

三、融合方法

1.查询初始化(Query Initialization)

查询初始化:使用lidar的BEV特征图预测不同类别的热力图(热力图反应目标的位置,每个类别对应一张热力图),将这些热力图作为候选对象,将所有类别中的前N个候选对象作为初始对象查询。为了避免空间上过近的查询,取局部最大值(大于等于8个连接的邻居)作为初始对象查询。候选者的位置和特征用来初始化查询对象的位置和特征。

类别感知(Category-aware):为了更好地进行多类检测,为每个查询配备类别嵌入,来使每个对象查询具有类别感知的能力。(猜测:每个类别对应一张热力图,选定一个候选对象,将查询特征其实也就是候选对象的特征与类别嵌入/类别编码逐元素相加,让对象查询知道自己属于什么类别)

2.激光雷达与相机融合

SMCA用于图像融合:找到先前初始化的对象查询所在的图像,将对象查询和图像特征投影进行交叉注意力。使用SMCA空间调制交叉注意模块用于避免对象查询关注与待预测边界无关的区域。

transfusion的整体管道。我们的模型依赖于标准的3D和2D主干来提取LiDAR BEV特征图和图像特征图。我们的检测头依次由两个变压器解码器层组成:(1)第一层使用稀疏的对象查询集生成初始的3D边界框,以输入依赖和类别感知的方式初始化。(2)第二层专注地将第一阶段的对象查询(带有初始预测)与图像特征相关联和融合,产生丰富的纹理和颜色线索,以获得更好的检测结果。引入空间调制交叉注意(SMCA)机制,引入局域感应偏置,帮助网络更好地关注相关图像区域。此外,我们还提出了一种图像引导查询初始化策略,用于激光雷达BEV的图像引导。这种策略有助于产生在稀疏的激光雷达点云中难以检测到的对象查询

四、本文创新点

1.查询初始化

原因:以往的研究中,对象查询都是随机初始化的,需要额外的解码层使对象查询移动到真实目标附近。研究发现,经过较好的初始化对象查询后,可以只需要一层解码层便可以达到竞争性的性能。于是提出基于热力图的对象查询初始化。

实现:以输入依赖和类别感知的方式初始化

输入依赖:使用lidar的BEV特征预测出热力图(热力图会得到该类别对象的中心点),将该热力图视为候选对象,使用所有类别的前n个候选对象作为初始对象查询,使用候选对象的位置和特征作为初始对象查询的位置和特征

类别感知:在BEV空间的对象均为绝对尺度,同一类别之间的尺度差异较小。为了更好地利用这些属性进行多类检测,我们通过为每个查询配备类别嵌入来使对象查询具有类别感知。

具体来说,使用每个选定候选的类别(例如,Sijk属于第k个类别),我们通过将一个one-hot类别向量线性投影到R d向量中产生的类别嵌入来逐元素对查询特征求和。

类别嵌入的好处体现在两个方面:一方面,它为自注意模块中的对象-对象关系建模和交叉注意模块中的对象-上下文关系建模提供了有用的辅助信息。另一方面,在预测过程中,它可以提供有价值的对象先验知识,使网络专注于类别内方差,从而有利于属性预测

2.使用软关联机制实现lidar与图像融合

原因:lidar点比较稀疏,多少lidar点就只能获取相同数量的图像特征,浪费了语义丰富的图像特征,于是在本文选择了保留所有的图像特征。同时为了降低融合对劣质图像特征以及传感器错位的敏感性使用交叉注意力机制让lidar点自适应选择从图像哪里与哪些融合,提高鲁棒性。

具体实现:使用之前的预测和校准矩阵得到对象查询对应的二维图像特征,然后将对象查询和相应的图像特征进行交叉注意力实现融合。

空间调制交叉注意(SMCA)模块:对象查询可能会关注预测边界框无关的视觉区域,导致准确识别图像上的适当区域的训练时间增长。为了解决这个问题,提出SMCA。

使得每次对象查询只关注投影二维方框周围的区域,使得网络可以更好更快地根据输入的LiDAR特征学习在哪里选择图像特征。

3.图像引导初始化查询

首先沿着垂直维度压缩图像特征,然后投影到BEV平面上,与LiDAR BEV特征的交叉关注。每个图像由一个单独的多头关注层处理,该层捕获图像列与BEV位置之间的关系。

折叠操作是基于观察到利用相机几何可以很容易地建立BEV位置与图像列之间的关系,并且通常在每个图像列上最多有一个目标。因此,沿高度轴折叠可以显著减少计算量,而不会丢失关键信息。虽然在这个过程中可能会丢失一些细粒度的图像特征,但它已经满足了我们的需要,因为只需要提示潜在的对象位置。之后类似Sec3.2,使用Flc预测热图,并与仅lidar热图S平均得到Slc作为最终热图

通过使用Slc来选择和初始化目标查询,模型能够检测到在LiDAR点云中难以检测到的目标

原因:由于lidar点云的稀疏性,并进一步利用高分辨率图像检测小物体的能力

实现:将图像特征投影到BEV空间,与lidar在BEV空间的特征使用交叉注意力得到Flc(既有图像特征又有lidar特征)。使用Flc预测热图,同时与只有lidar的热图平均得到最终热图Slc。使用Slc来选择初始化对象查询

五、论文实验

1.在数据集上验证

nuScenes数据集:nuScenes数据集是一个用于3D检测和跟踪的大规模自动驾驶数据集,transfusion在该数据集上取得较好的结果,猜测

Waymo Open Dataset:性能得到较小的提升,猜测是因为,首先,图像的语义信息可能对Waymo的粗粒度分类影响较小。其次,来自第一个解码器层的初始边界框已经具有准确的位置,因为Waymo中的点云比nuScenes中的点云更密集

Extend to Tracking:为了检验模型的泛化能力,还检验了模型的追踪性能。模型明显优于CenterPoint,并在nuScenes跟踪的排行榜上设置了新的最先进的结果。

2.做三个实验证明transfusion的鲁棒性

与通过逐点拼接(表示为CC)融合激光雷达和图像特征,以及点增强(表示为PA)融合策略做对比实验

夜间:该方法在夜间带来了更大的性能提升,在夜间,较差的照明会对基于硬关联的融合策略CC和PA产生负面影响

较差图像质量:为每一帧丢弃若干图像,由于CC和PA基于硬关联性能影响较大,而transfusion基于软关联性能影响较小。同时,tranfusion首先基于lidar生成初始预测,再自适应与图像融合。当识别图像特征不可用时,还可以关闭融合,只得到基于lidar的初始预测。

传感器错位:在从相机到激光雷达传感器的变换矩阵中随机添加平移偏移量来评估。校准矩阵仅用于将目标查询投影到图像上,且由注意机制可以根据上下文信息自适应地找到周围的相关图像特征,因此融合模块对投影位置并不严格,提高了鲁棒性

3.在nuScenes validation上进行了消融实验

研究去除不同组件后对transfusion功能的影响

总结

transfusion是基于软关联的3D点云与图像融合的框架,在较差的图像条件、传感器错位,lidar不容易识别到的小目标的情况下具有较好的鲁棒性

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值