【多模态融合】IS-Fusion: Instance-Scene Collaborative Fusion for Multimodal 3D Object Detection

最新推荐文章于 2025-05-06 20:57:50 发布

追风赶月。

最新推荐文章于 2025-05-06 20:57:50 发布

阅读量2.5k

点赞数 30

分类专栏：论文阅读文章标签： 3d 目标检测人工智能计算机视觉深度学习

本文链接：https://blog.csdn.net/cjy_colorful0806/article/details/139427016

版权

论文链接：IS-Fusion: Instance-Scene Collaborative Fusion for Multimodal 3D Object Detection

代码链接：https://github.com/yinjunbo/IS-Fusion

作者：Junbo Yin, Jianbing Shen, Runnan Chen, Wei Li, Ruigang Yang, Pascal Frossard, Wenguan Wang

发表单位：北京理工大学、澳门大学、香港大学、嬴彻科技、洛桑联邦理工学院、浙江大学

会议/期刊：CVPR2024

一、研究背景

3D目标检测在自动驾驶和机器人等应用中是一个关键任务。尽管点云提供了关于3D空间的宝贵几何信息，但通常缺乏详细的纹理描述且分布稀疏，特别是在远距离场景中。为了克服这些限制，近期的趋势是通过融合点云和多视角图像的信息进行多模态3D目标检测。图像模态提供了详细的纹理和密集的语义信息，补充了稀疏的点云，从而增强了3D感知能力。

现有方法通常在统一的鸟瞰图（BEV）空间中进行特征对齐和融合，但这种全局场景级别的融合忽略了前景实例和背景区域之间的差异，可能会影响性能。例如，BEV中的对象实例通常比自然图像中的对象实例尺寸更小，且前景实例占据的网格单元显著少于背景样本，导致前景和背景样本之间的严重不平衡。因此，上述方法难以捕获对象实例周围的本地上下文（Deepinteraction），或者在解码阶段很大程度上依赖于额外的网络来迭代地细化检测（Transfusion）。

一些方法（如Sparsefusion）旨在执行对象级编码，但它们忽略了场景和实例特征之间的潜在协作。例如，场景中的漏报对象可以通过与共享相似语义信息的实例交互来增强其特征来潜在地纠正。因此，如何同时制定实例级和场景级上下文，并利用多模态融合来优雅地集成它们，仍然是一个悬而未决的问题。

IS-Fusion 的动机： (a) 以前的方法通常侧重于多模态编码期间整个场景级别的融合。 (b)相比之下，IS-Fusion更加强调实例层面的融合，并探索实例到场景的协作以增强整体表征。

如图1所示，IS-Fusion探索了实例级和场景级融合，并鼓励实例和场景特征之间的交互以加强整体表示。它由两个关键组件组成：层次场景融合（HSF）模块和实例引导融合（IGF）模块。 HSF 旨在通过利用点到网格和网格到区域转换器来捕获各种粒度的场景特征。这还能够生成对 IGF 至关重要的高质量实例级特征。在IGF中，前景候选实例由场景特征的热图分数确定；同时，采用实例间自注意力来捕获实例关系。然后，这些实例通过可变形注意力从多模态上下文中聚合基本语义信息。此外，结合了实例到场景转换器的注意力，以强制局部实例特征与全局场景特征协作。这会产生增强的 BEV 表示，更适合 3D 对象检测等实例感知任务。

本文贡献：

提出IS-FUSION框架：本文提出了一种新的多模态融合框架IS-FUSION，旨在联合捕捉实例和场景级别的上下文信息，以提高3D目标检测性能。
设计分层场景融合（HSF）、实例引导融合（IGF）模块、实例到场景变压器注意机制：设计了点到网格和网格到区域的变压器，在不同粒度上捕捉多模态场景上下文，实现高质量的实例级特征生成。通过实例候选选择和自注意机制，挖掘实例关系，并聚合多模态上下文信息，增强场景特征。引入实例到场景的变压器注意机制，促进局部实例特征与全局场景特征的协作，生成更适合实例感知任务的BEV表示。
实验结果验证：在nuScenes基准测试中，IS-FUSION在所有已发布的多模态工作中表现最佳（它在 nuScenes 验证集上实现了 72.8% mAP，比现有技术 BEVFusion高出 4.3% mAP。它还比 CMT和 SparseFusion等同期工作分别高出 2.5% 和 1.8% mAP），显著提高了3D目标检测的性能，证明了所提方法的有效性和优越性。

二、整体框架

IS-Fusion 框架概述

上图包括点云和多视图图像的多模态输入，首先由模态特定的编码器处理以获得初始特征。然后，配备点到网格和网格到区域转换器的 HSF 模块利用这些特征生成具有分层上下文的场景级特征。此外，IGF 模块识别最显着的实例并聚合每个实例的多模式上下文。最后，实例到场景转换器使用这些实例将有价值的信息传播到场景，从而生成具有改进的实例感知的最终 BEV 表示。

如上图所示，每个场景都由 LiDAR 点云P表示，以及由N个相机捕获的同步 RGB 图像 $I=\{I_1,I_2,...,I_N\},$ 这些图像使用 LiDAR 传感器进行校准。目标是设计一个能够在给定多模态输入（P, I）的情况下生成精确的 3D 边界框Y的检测模型。所提议的 IS-Fusion 模型定义为：

$Y=f_{\mathrm{~dec}}(f_{\mathrm{~enc}}(f_{\mathrm{~point}}(P),f_{\mathrm{~img}}(I))),$

其中fpoint⁢(⋅)和fimg⁢(⋅)作为输入编码模块，fenc⁢(⋅)表示多模态编码器（由HSF和IGF组成），fdec⁢(⋅)是解码器。

多模态输入编码：为了处理来自异构模态的输入，首先利用模态特定的编码器来获取它们各自的初始表示，即 $B_\mathrm{P}=f_\mathrm{~point}(P) , F_\mathrm{I}=f_\mathrm{~img}(I)$ 。对于点云数据，使用VoxelNet，对于图像数据使用Swin-Transformer。这会产生点云 BEV 特征B p和图像透视视图 (PV) 特征F I。特别地， $B_{\mathbb{P}}\in\mathbb{R}^{W\times H\times C}$ 是通过压缩3D体素特征的高度尺寸获得的，其中W和H是BEV网格的数量沿x和y轴的单元格，C表示通道维度。

多模态编码器：多模态编码器f enc⁢(⋅)在B p和F I之间进行跨模态特征融合，以产生融合的 BEV 特征 $\hat{B}_{\mathrm{F}}\in\mathbb{R}^{W\times H\times C}$ 与之前仅关注整个场景级别的融合的多模态编码器相比，作者开发了实例级和场景级表示。为此，设计了使用两个模块的f enc⁢(⋅)，即HSF模块f HSF⁢(⋅)和IGF模块f IGF⁢(⋅)：

$\hat{B}_\mathrm{F}=f_\mathrm{~enc}(B_\mathrm{P},F_\mathrm{I})=f_\mathrm{~IGF}(f_\mathrm{~HSF}(B_\mathrm{P},F_\mathrm{I})),$

其中f HSF⁢(⋅)生成多粒度场景特征，而f IGF⁢(⋅)进一步集成有关前景实例的关键信息。

多模态解码器：多模态解码器的目标是根据 $\boldsymbol{Y}=f_{\mathrm{~dec}}(\hat{\boldsymbol{B}}_{\mathrm{F}})$ 给出的 BEV 表示 $\hat{\boldsymbol{B}}_{\mathrm{F}}$ 生成最终的 3D 检测Y。在本文工作中，f dec⁢(⋅)是建立在Transformer架构的基础上的（参考DETR3D的工作），它包含几个注意力层和一个用作检测

最低0.47元/天解锁文章