【多模态融合】Cross Modal Transformer: Towards Fast and Robust 3D Object Detection

论文链接:Cross Modal Transformer: Towards Fast and Robust 3D Object Detection

代码链接:https://github.com/junjie18/CMT

作者:Junjie Yan, Yingfei Liu, Jianjian Sun, Fan Jia, Shuailin Li, Tiancai Wang, Xiangyu Zhang

发表单位:旷视科技

会议/期刊:ICCV2023

一、研究背景

多传感器融合在自动驾驶系统中展示了其巨大优势。不同的传感器通常能提供互补的信息。例如,摄像头以透视视角捕捉信息,图像中包含丰富的语义特征,而点云则提供更多的定位和几何信息。充分利用不同传感器有助于减少不确定性,从而进行准确和鲁棒的预测。

然而,由于不同模态的传感器数据在分布上的巨大差异,融合这些多模态数据一直是个挑战。当前的主流方法通常通过构建统一的鸟瞰图(BEV)表示来进行多模态特征融合,或通过查询令牌(Transformer架构)来实现多模态融合。

BEVFusion、TransFusion 和所提出的 CMT 之间的比较

上图, (a) 在 BEVFusion 中,通过视图变换将相机特征变换到 BEV 空间。两个模态特征在BEV空间中级联,并采用BEV编码器进行融合。 “VT”是从图像到3D空间的视图变换。(b) TransFusion 首先从 LiDAR 特征的高响应区域生成查询。之后,对象查询分别与点云特征和图像特征交互。 (c) 在 CMT 中,对象查询直接同时与多模态特征交互。将位置编码(PE)添加到多模态特征中以进行对齐。

性能对比以及传感器缺失情况性能评估

左:CMT 与现有方法之间的性能比较。所有速度统计数据均使用官方存储库的最佳模型在单个 Tesla A100 GPU 上测量。 (所有方法都使用spconv repo中相同的Voxelization模块。此外,BevFusion的TranFusion head也配备了CMT repo中相同的FlashAttn。CMT和BEVFusion都没有采用预计算)。

右:传感器缺失情况下 CMT 的性能评估。在推理过程中,CMT 在 LiDAR 缺失的情况下实现了基于视觉的性能,表现出很强的鲁棒性。

本文受 DETR 的启发,目标是为 3D 对象检测中的多模态融合构建一个优雅的端到端管道。

在 DETR 中,对象查询通过 Transformer 解码器中的交叉注意力直接与图像标记交互。对于 3D 对象检测,一种直观的方法是将图像和点云标记连接在一起,以便与对象查询进一步交互。然而,连接的标记是无序的并且不知道它们在 3D 空间中的相应位置。因此,有必要为多模态标记和对象查询提供位置先验。

在本文,提出了 Cross-Modal Transformer (CMT),这是一种简单但有效的端到端管道,用于鲁棒3D 对象检测。

首先,提出了坐标编码模块(CEM),它通过将 3D 点集隐式编码为多模态标记来生成位置感知特征。具体来说,对于相机图像,从视锥体空间采样的 3D 点用于指示每个像素的 3D 位置的概率。而对于 LiDAR,BEV 坐标只是简单地编码到点云标记中。接下来,使用位置引导查询。每个查询都按照 PETR初始化为 3D 参考点。将参考点的 3D 坐标变换到图像和 LiDAR 空间,以在每个空间中执行相对坐标编码。

与现有方法相比,所提出的 CMT 框架具有许多优点。

首先,该方法是一个简单的端到端管道,可以轻松扩展。 3D 位置被隐式编码到多模态特征中,这避免了引入显式跨视图特征对齐引起的偏差。

其次,方法仅包含基本操作,没有对多模态特征进行特征采样或复杂的 2D 到 3D 视图转换。它实现了最先进的性能,并且与现有方法相比显示出明显的优越性。

### BEVFusion 复现教程 #### 一、环境准备 为了顺利复现BEVFusion项目,需先搭建合适的开发环境。推荐使用Anaconda管理Python虚拟环境。 ```bash conda create -n bevf python=3.8 conda activate bevf pip install mmcv-full==1.4.0 mmdet==2.17.0 mmdet3d==0.15.0 ``` 安装依赖库之后,还需下载并编译MMDetection3D及其扩展组件[^4]。 #### 二、数据集处理 对于BEVFusion而言,支持多种常见的自动驾驶场景下的3D目标检测数据集,如nuScenes等。获取官方提供的预训练权重文件和测试/验证集样本非常重要。按照文档说明解压至指定路径,并调整配置文件中的`data_root`参数指向本地存储位置。 #### 三、模型配置修改 深入理解FocalFormer3D架构特点,在此基础上参照已有的案例自定义适合特定应用场景的任务设置。比如针对不同传感器输入(激光雷达LiDAR与摄像头Camera)设计对应的backbone网络结构;通过调节超参优化多视角特征提取效率及精度表现[^1]。 #### 四、训练过程监控 启动分布式训练之前建议先执行单卡调试模式确认无误后再扩大规模。利用TensorBoard或其他可视化工具实时跟踪loss变化趋势和其他关键指标进展状况。当遇到收敛缓慢等问题时可以尝试微调学习率策略或是引入更多正则化手段来改善泛化能力。 #### 五、评估与推理部署 完成一轮完整的迭代后记得保存最佳checkpoint用于后续离线评测环节。加载最优版本的权值进行预测操作前要确保input format符合预期格式要求。最后可借助开源工具包快速生成提交结果供比赛或实际产品上线参考。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值