Xie, G., Chen, Z., Gao, M., Hu, M., & Qin, X. (2024). PPF-Det: Point-Pixel Fusion for Multi-Modal 3D Object Detection. IEEE Transactions on Intelligent Transportation Systems, PP(99), 1–14. https://doi.org/10.1109/TITS.2023.3347078
PPF-Det: 点-像素融合用于多模态3D目标检测
多模态融合可以利用激光雷达和摄像机提高3D目标检测的鲁棒性和性能。然而,全面利用图像信息并执行准确多样化的特征交互融合仍然面临重大挑战。在本文中,我们提出了一种新颖的多模态框架,即用于多模态3D目标检测的点-像素融合(PPF-Det)。PPF-Det包括三个子模块,即多像素感知(MPP)、共享组合点特征编码器(SCPFE)和点-体素-智能三重注意力融合(PVW-TAF),以解决上述问题。首先,MPP可以充分利用图像语义信息,缓解点云和图像之间的分辨率不匹配问题。此外,我们提出了SCPFE,同时提取点云特征和点-像素特征,从而减少在3D空间上的耗时。最后,我们提出了一种精细对齐融合策略PVW-TAF,基于注意力机制生成多层次体素融合特征。在2023年9月24日进行的KITTI基准测试上进行了大量实验证明。
图1. 信号级融合、特征级融合、结果级融合以及我们的融合架构的示意图。
图2. 框架概述。PPF-Det由四个主要模块组成:(1)多像素感知(MPP),(2)共享组合点特征编码器(SCPFE),(3)点-体素-智能三重注意力融合(PVW-TAF),(4)3D检测器。MPP将点云投影到图像上以生成点-像素特征,而SCPFE对点-像素特征和点云特征进行编码,提取丰富信息。PVW-TAF基于注意力机制融合点-像素云和点云的点级特征和体素级特征。最后,通过体素融合特征,任何3D检测器都可以执行预测。
图3. 多像素感知模块示意图。
图4. 共享组合点特征编码器示意图。
图5. 对比先前方法、3D-GAF和PVW-TAF。
图6. 融合GT(Ground Truth)数据库以进行增强的示意图。