论文阅读PPF-Det: Point-Pixel Fusion for Multi-Modal 3D Object Detection

Xie, G., Chen, Z., Gao, M., Hu, M., & Qin, X. (2024). PPF-Det: Point-Pixel Fusion for Multi-Modal 3D Object Detection. IEEE Transactions on Intelligent Transportation Systems, PP(99), 1–14. https://doi.org/10.1109/TITS.2023.3347078

PPF-Det: 点-像素融合用于多模态3D目标检测

多模态融合可以利用激光雷达和摄像机提高3D目标检测的鲁棒性和性能。然而,全面利用图像信息并执行准确多样化的特征交互融合仍然面临重大挑战。在本文中,我们提出了一种新颖的多模态框架,即用于多模态3D目标检测的点-像素融合(PPF-Det)。PPF-Det包括三个子模块,即多像素感知(MPP)、共享组合点特征编码器(SCPFE)和点-体素-智能三重注意力融合(PVW-TAF),以解决上述问题。首先,MPP可以充分利用图像语义信息,缓解点云和图像之间的分辨率不匹配问题。此外,我们提出了SCPFE,同时提取点云特征和点-像素特征,从而减少在3D空间上的耗时。最后,我们提出了一种精细对齐融合策略PVW-TAF,基于注意力机制生成多层次体素融合特征。在2023年9月24日进行的KITTI基准测试上进行了大量实验证明。

在这里插入图片描述
图1. 信号级融合、特征级融合、结果级融合以及我们的融合架构的示意图。

在这里插入图片描述
图2. 框架概述。PPF-Det由四个主要模块组成:(1)多像素感知(MPP),(2)共享组合点特征编码器(SCPFE),(3)点-体素-智能三重注意力融合(PVW-TAF),(4)3D检测器。MPP将点云投影到图像上以生成点-像素特征,而SCPFE对点-像素特征和点云特征进行编码,提取丰富信息。PVW-TAF基于注意力机制融合点-像素云和点云的点级特征和体素级特征。最后,通过体素融合特征,任何3D检测器都可以执行预测。

在这里插入图片描述
图3. 多像素感知模块示意图。

在这里插入图片描述
图4. 共享组合点特征编码器示意图。

在这里插入图片描述
图5. 对比先前方法、3D-GAF和PVW-TAF。

在这里插入图片描述
图6. 融合GT(Ground Truth)数据库以进行增强的示意图。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

王知为

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值