【多模态融合】Cross Modal Transformer: Towards Fast and Robust 3D Object Detection

追风赶月。

已于 2024-05-20 18:00:36 修改

阅读量2.7k

点赞数 11

分类专栏：论文阅读文章标签： transformer 3d 目标检测人工智能计算机视觉深度学习

于 2024-05-20 17:43:38 首次发布

本文链接：https://blog.csdn.net/cjy_colorful0806/article/details/139071237

版权

论文链接：Cross Modal Transformer: Towards Fast and Robust 3D Object Detection

代码链接：https://github.com/junjie18/CMT

作者：Junjie Yan, Yingfei Liu, Jianjian Sun, Fan Jia, Shuailin Li, Tiancai Wang, Xiangyu Zhang

发表单位：旷视科技

会议/期刊：ICCV2023

一、研究背景

多传感器融合在自动驾驶系统中展示了其巨大优势。不同的传感器通常能提供互补的信息。例如，摄像头以透视视角捕捉信息，图像中包含丰富的语义特征，而点云则提供更多的定位和几何信息。充分利用不同传感器有助于减少不确定性，从而进行准确和鲁棒的预测。

然而，由于不同模态的传感器数据在分布上的巨大差异，融合这些多模态数据一直是个挑战。当前的主流方法通常通过构建统一的鸟瞰图（BEV）表示来进行多模态特征融合，或通过查询令牌（Transformer架构）来实现多模态融合。

BEVFusion、TransFusion 和所提出的 CMT 之间的比较

上图， (a) 在 BEVFusion 中，通过视图变换将相机特征变换到 BEV 空间。两个模态特征在BEV空间中级联，并采用BEV编码器进行融合。 “VT”是从图像到3D空间的视图变换。(b) TransFusion 首先从 LiDAR 特征的高响应区域生成查询。之后，对象查询分别与点云特征和图像特征交互。 (c) 在 CMT 中，对象查询直接同时与多模态特征交互。将位置编码（PE）添加到多模态特征中以进行对齐。

性能对比以及传感器缺失情况性能评估

左：CMT 与现有方法之间的性能比较。所有速度统计数据均使用官方存储库的最佳模型在单个 Tesla A100 GPU 上测量。（所有方法都使用spconv repo中相同的Voxelization模块。此外，BevFusion的TranFusion head也配备了CMT repo中相同的FlashAttn。CMT和BEVFusion都没有采用预计算）。

右：传感器缺失情况下 CMT 的性能评估。在推理过程中，CMT 在 LiDAR 缺失的情况下实现了基于视觉的性能，表现出很强的鲁棒性。

本文受 DETR 的启发，目标是为 3D 对象检测中的多模态融合构建一个优雅的端到端管道。

在 DETR 中，对象查询通过 Transformer 解码器中的交叉注意力直接与图像标记交互。对于 3D 对象检测，一种直观的方法是将图像和点云标记连接在一起，以便与对象查询进一步交互。然而，连接的标记是无序的并且不知道它们在 3D 空间中的相应位置。因此，有必要为多模态标记和对象查询提供位置先验。

在本文，提出了 Cross-Modal Transformer (CMT)，这是一种简单但有效的端到端管道，用于鲁棒3D 对象检测。

首先，提出了坐标编码模块（CEM），它通过将 3D 点集隐式编码为多模态标记来生成位置感知特征。具体来说，对于相机图像，从视锥体空间采样的 3D 点用于指示每个像素的 3D 位置的概率。而对于 LiDAR，BEV 坐标只是简单地编码到点云标记中。接下来，使用位置引导查询。每个查询都按照 PETR初始化为 3D 参考点。将参考点的 3D 坐标变换到图像和 LiDAR 空间，以在每个空间中执行相对坐标编码。

与现有方法相比，所提出的 CMT 框架具有许多优点。

首先，该方法是一个简单的端到端管道，可以轻松扩展。 3D 位置被隐式编码到多模态特征中，这避免了引入显式跨视图特征对齐引起的偏差。

其次，方法仅包含基本操作，没有对多模态特征进行特征采样或复杂的 2D 到 3D 视图转换。它实现了最先进的性能，并且与现有方法相比显示出明显的优越性。