论文链接:Cross Modal Transformer: Towards Fast and Robust 3D Object Detection
代码链接:https://github.com/junjie18/CMT
作者:Junjie Yan, Yingfei Liu, Jianjian Sun, Fan Jia, Shuailin Li, Tiancai Wang, Xiangyu Zhang
发表单位:旷视科技
会议/期刊:ICCV2023
一、研究背景
多传感器融合在自动驾驶系统中展示了其巨大优势。不同的传感器通常能提供互补的信息。例如,摄像头以透视视角捕捉信息,图像中包含丰富的语义特征,而点云则提供更多的定位和几何信息。充分利用不同传感器有助于减少不确定性,从而进行准确和鲁棒的预测。
然而,由于不同模态的传感器数据在分布上的巨大差异,融合这些多模态数据一直是个挑战。当前的主流方法通常通过构建统一的鸟瞰图(BEV)表示来进行多模态特征融合,或通过查询令牌(Transformer架构)来实现多模态融合。
BEVFusion、TransFusion 和所提出的 CMT 之间的比较
上图, (a) 在 BEVFusion 中,通过视图变换将相机特征变换到 BEV 空间。两个模态特征在BEV空间中级联,并采用BEV编码器进行融合。 “VT”是从图像到3D空间的视图变换。(b) TransFusion 首先从 LiDAR 特征的高响应区域生成查询。之后,对象查询分别与点云特征和图像特征交互。 (c) 在 CMT 中,对象查询直接同时与多模态特征交互。将位置编码(PE)添加到多模态特征中以进行对齐。
性能对比以及传感器缺失情况性能评估
左:CMT 与现有方法之间的性能比较。所有速度统计数据均使用官方存储库的最佳模型在单个 Tesla A100 GPU 上测量。 (所有方法都使用spconv repo中相同的Voxelization模块。此外,BevFusion的TranFusion head也配备了CMT repo中相同的FlashAttn。CMT和BEVFusion都没有采用预计算)。
右:传感器缺失情况下 CMT 的性能评估。在推理过程中,CMT 在 LiDAR 缺失的情况下实现了基于视觉的性能,表现出很强的鲁棒性。
本文受 DETR 的启发,目标是为 3D 对象检测中的多模态融合构建一个优雅的端到端管道。
在 DETR 中,对象查询通过 Transformer 解码器中的交叉注意力直接与图像标记交互。对于 3D 对象检测,一种直观的方法是将图像和点云标记连接在一起,以便与对象查询进一步交互。然而,连接的标记是无序的并且不知道它们在 3D 空间中的相应位置。因此,有必要为多模态标记和对象查询提供位置先验。
在本文,提出了 Cross-Modal Transformer (CMT),这是一种简单但有效的端到端管道,用于鲁棒3D 对象检测。
首先,提出了坐标编码模块(CEM),它通过将 3D 点集隐式编码为多模态标记来生成位置感知特征。具体来说,对于相机图像,从视锥体空间采样的 3D 点用于指示每个像素的 3D 位置的概率。而对于 LiDAR,BEV 坐标只是简单地编码到点云标记中。接下来,使用位置引导查询。每个查询都按照 PETR初始化为 3D 参考点。将参考点的 3D 坐标变换到图像和 LiDAR 空间,以在每个空间中执行相对坐标编码。
与现有方法相比,所提出的 CMT 框架具有许多优点。
首先,该方法是一个简单的端到端管道,可以轻松扩展。 3D 位置被隐式编码到多模态特征中,这避免了引入显式跨视图特征对齐引起的偏差。
其次,方法仅包含基本操作,没有对多模态特征进行特征采样或复杂的 2D 到 3D 视图转换。它实现了最先进的性能,并且与现有方法相比显示出明显的优越性。