论文链接:DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection
代码链接:https://github.com/tensorflow/lingvo
作者:Yingwei Li, Adams Wei Yu, Tianjian Meng, Ben Caine, Jiquan Ngiam, Daiyi Peng, Junyang Shen, Bo Wu, Yifeng Lu, Denny Zhou, Quoc V. Le, Alan Yuille, Mingxing Tan
发表单位:Johns Hopkins University、Google
会议/期刊:CVPR2022
一、研究背景
在自动驾驶中融合激光雷达和相机数据进行3D对象检测面临挑战,大多数最先进的检测器仅依赖激光雷达数据。此项工作发现与原始点相比,将相机特征与深度激光雷达特征对齐和融合可以显著提升性能。然而,由于两种模态的增强和聚合过程不同,对齐变换特征变得具有挑战性。
过去的方法例如PointPainting仅在输入级别用相机特征来装饰激光雷达点。作者认为结合两者的特征做融合可以带来更好的效果,但融合上面临着3大挑战。
(1)特征对齐:激光雷达和相机数据在几何空间中的表达形式不同
(2)数据增强的不一致性:为了提高模型的泛化能力,通常会对输入数据应用各种数据增强技术。然而,激光雷达点云和相机图像通常需要不同的增强策略
(3)信息融合的有效性:即使成功对齐了激光雷达和相机的特征,如何有效融合这些特征以利用它们的互补信息仍然是一个开放问题
本文贡献:
(1)第一个系统研究深度特征对齐对3D多模态检测器的影响
(2)提出InverseAug 和LearnableAlign 来实现深度特征级对齐,从而实现准确且稳健的3D 对象检测器;
(3)DeepFusions 在 Waymo 开放数据集上实现了最先进的性能
DeepFusions和PointPainting方法的区别
二、整体框架
本文提出了DeepFusion方法,专注于融合激光雷达和相机数据的深度特征。与之前在输入层将激光雷达点与相机特征结合的方法不同,DeepFusion在特征层操作,避免了由不同增强技术导致的不对齐问题。DeepFusion的核心包括两种新颖技术&#x