一个多模态 (Camera + Lidar) 3D 目标检测 SOTA 方法!论文链接:https://arxiv.org/abs/2004.12636
摘要
本文提出了一种融合摄像机和激光雷达传感器进行三维目标检测的深层结构。由于摄像机和激光雷达的传感器信号具有不同的特性和分布,融合这两种模式有望提高三维目标检测的精度和鲁棒性。相机和激光雷达融合带来的一个挑战是,从每种成像方式获得的空间特征图在相机和世界坐标系中都由明显不同的视图表示;因此,在不丢失信息的情况下组合两个异构特征图并非易事。为解决这一问题,我们提出了一种结合摄像机和激光雷达特征的名为 3D-CVF 的方法。首先,该方法采用自动校准投影 (auto-calibrated projection),将二维摄像机特征转换为与鸟瞰图 (BEV) 中的 LiDAR 特征对应性/响应 (correspondence) 最高的平滑空间特征图。然后,应用门控特征融合网络 (gated feature fusion network),利用空间注意力图,根据区域适当地混合摄像机和激光雷达的特征。接下来,在后续的提案精细化阶段 (proposal refinement stage),还实现了相机-激光雷达的特征融合。在 2D 相机视图域中通过 3D 感兴趣区域网格池化 (3D RoI grid pooling) 使用相机特征,并与 BEV 特征融合以改进方案。我们在 KITTI 和 nuScenes 3D目标检测数据集上进行的评估表明,与单模态相比,相机激光雷达融合提供了显著的性能增益,并且所提出的 3D-CVF 在 KITTI 基准中达到了 STOA 的性能。