DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection
说明
- 会议:CVPR2022
- 标题:DeepFusion:用于多模式 3D 对象检测的激光雷达相机深度融合
- 代码:https://github.com/tensorflow/lingvo
摘要总结
背景
- 现状:激光雷达和摄像头是关键传感器,可为自动驾驶中的 3D 检测提供补充信息。
- 问题:流行的多模式方法是简单的利用相机特征对原始激光雷达点云做decorate,但我们的研究表明,比起原始的数据,直接将相机的特征和深度雷达特征做融合可以达到更好的效果;然而由于这些特征经常被增强和聚合,融合的一个关键挑战是如何有效对齐两者模态转换后的特征。
方法
-
总括:在本文中,我们提出了两种新技术:InverseAug 和 LearnableAlign
-
具体说明:
- InverseAug 反转几何相关的增强,例如旋转,以实现激光雷达点和图像像素之间的精确几何对齐;
- LearnableAlign 利用交叉注意力动态捕获图像之间的相关性融合过程中的激光雷达特征。
结果
基于 InverseAug 和 LearnableAlign,我们开发了一系列名为 DeepFusion 的通用多模式 3D 检测模型。
- 它比以前的方法更准确。例如,DeepFusion 分别针对 6.7、8.9 和 6.2 LEVEL 2 APH 改进了 Point-Pillars、CenterPoint 和 3D-MAN 行人检测基线。
- 我们的模型在 Waymo 开放数据集上实现了最先进的性能,并显示出强大的模型鲁棒性,可以防止输入损坏和分布外的数据。
具体方法
具体架构描述

我们的方法在深度特征层面上融合了两种模式,而之前最先进的方法(以 PointPainting [34] 和 PointAugmenting [36] 为例)在输入层面上用相机特征装饰激光雷达点。为了解决深度特征融合的模态对齐问题(参见第 1 节),我们提出了两种技术 InverseAug(参见图 2 和 3)和 LearnableAlign,这是一种基于交叉注意力的特征级对齐技术。
如图1(a)所示,以前的方法,如PointPainting[34]和PointAugmenting[36],通常使用一个额外训练有素的检测或分割模型作为相机特征提取器。例如,PointP

最低0.47元/天 解锁文章

2万+

被折叠的 条评论
为什么被折叠?



