【多模态融合】SparseLIF: High-Performance Sparse LiDAR-Camera Fusion for 3D Object Detection

本文介绍了一种名为SparseLIF的高性能3D物体检测器,通过改进查询生成、特征采样和多模态融合,克服了稀疏检测器与密集检测器的性能差距。实验结果显示,SparseLIF在nuScenes数据集上表现出色,尤其是在检测距离和小目标类别方面有显著优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文链接:SparseLIF: High-Performance Sparse LiDAR-Camera Fusion for 3D Object Detection

代码链接:暂无

作者:Hongcheng Zhang, Liu Liang, Pengxin Zeng, Xiao Song, Zhe Wang

发表单位:商汤科技、四川大学

会议/期刊:

一、研究背景

人们提出了各种方法来彻底探索激光雷达和相机模式中的补偿信息。传统的多模态 3D 对象检测方法通常将两种模态转换为统一的空间以进行特征融合。例如,PointPainting及其变体用图像像素特征装饰原始点云(统一转换为点云的形式)。 BEVFusion将图像视图特征转换为密集的 BEV 空间,以与 LiDAR 特征融合(统一转换为BEV空间的形式)。密集范式近年来取得了显着的成功,但面临着繁琐的视图转换,导致高延迟、有限的检测距离和有限的上限性能。

最近的工作引入了一种基于稀疏查询的范例,无需显式视图转换。一些开创性的稀疏检测器使用全局注意力在一个 或两个阶段聚合多模态特征。然而,详尽的全局注意力掩盖了稀疏范式的优势,使其难以从长期时间信息中受益。最近,一系列工作探索了完全稀疏范式该范式不使用全局注意力和密集 BEV 查询。例如,像 FUTR3D 和 DeepInteraction 这样的工作使用参考点从两种模式中采样特征。尽管取得了巨大进步,这些方法仍然落后于其密集的工作。因此,与密集检测器相比,完全稀疏的多模态检测器是否能够实现卓越的性能仍然是一个悬而未决的问题。

本文介绍了 SparseLIF,这是一种高性能完全稀疏多模态 3D 物体检测器,其性能优于所有其他密集对应检测器和稀疏检测器。 SparseLIF 通过在查询生成、特征采样和多模态融合三个方面增强丰富 LiDAR 和相机表示的感知来弥补性能差距。

本文的贡献如下:

(1)发现弥补稀疏检测器和密集检测器的性能差异关键在于查询生成、特征采样和多模态融合这3个方面增强对激光雷达和相机特征空间丰富表示的感知;

(2)提出一种高性能全稀疏检测器。用于基于 LiDAR 相机的 3D 物体检测。所提出的框架包含三个关键设计:透视感知查询生成(PAQG),它增强了查询建议对高分辨率图像中丰富上下文的透视感知; RoI-Aware Sampling (RIAS),通过跨两种模态采样互补的 RoI 特征来有效地细化先前的查询; 不确定性感知融合(UAF),在量化模态不确定性的指导下进行最终的多模态融合;

(3)进行了全面的实验来证明提出的方法的有效性。SparseLIF 在 nuScenes 数据集上的性能优于所有最先进的 3D 对象检测器,在验证集和测试基准上均排名第一。

二、整体框架

SparseLIF 的整体架构

这是一种基于LiDAR和相机的完全稀疏 3D 物体检测器。

该框架包含一个用于处理多视图的相机主干和一个用于编码原始点云的激光雷达主干。然后,将图像特征输入到透视感知查询生成(PAQG)模块中以生成查询。查询将通过 RoI 感知采样 (RIAS) 模块与相机和 LiDAR 功能进行交互,以提取补充功能以进一步细化。接下来,不确定性感知融合(UAF)模块量化两种模态的 RoI 特征的不确定性,并自适应地进行最终的多模态融合。解码器重复L次得到最终的检测结果。

对于相机特征提取主干,采用常见的ResNet、V2-99和FPN提取多视图、多尺度和多帧的特征,可以表示为 X_{\mathrm{cam}}=\{\mathcal{X}_{\mathrm{cam}}^{\upsilon mt}\}_{\upsilon=1,m=1,t=1}^{V,M,T},其中V、M和T表示为摄像机视图的数量、特征尺度和时间帧。

对于激光雷达特征提取主干,采用常见的VoxelNet和FPN提取多尺度Lidar特征,表示为 X_{\mathrm{lid}}=\left\{x_{\mathrm{lid}}^{r}\right\}_{r=1}^{R},其中R表示激光雷达特征尺度。

以相机特征作为输入,透视感知查询生成(PAQG)模块(第 3.1 节)采用耦合的 2D 和单目 3D 图像检测器来预测和生成具有透视先验的高质量 3D 查询。然后,这些查询将通过 RoI 感知采样 (RIAS) 模块与相机和 LiDAR 功能进行交互,以提取 RoI 功能以进一步细化。接下来,不确定性感知融合(UAF)模块(第 3.3 节)量化两种模态的 RoI 特征的不确定性,并自适应地进行多模态融合以进行最终 3D 对象预测。

三、核心方法

3.1 Perspective-Aware Query Generation

最近的工作通常基于 3D 空间中随机分布的参考点、锚框或支柱生成查询,并作为网络参数进行优化,而不管输入数据如何。然而,在 2D 检测中已经证明,这种与输入无关的查询将需要额外的努力来学习将查询建议移向GT对象目标。如下图所示,可视化基于查询的 3D 检测

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值