点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群
扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 这篇文章干了啥?
这篇文章提出了一个新的多模态3D目标检测框架IS-FUSION,探索了实例级和场景级融合,并鼓励实例特征与场景特征之间的交互,以加强整体表示。它包括两个关键组件:分层场景融合(HSF)模块和实例引导融合(IGF)模块。HSF旨在利用点对网格和网格对区域转换器以各种粒度捕获场景特征。这也使得生成对IGF至关重要的高质量实例级特征成为可能。在IGF中,前景实例候选对象由场景特征的热图分数确定;同时,采用了实例间自注意机制来捕获实例之间的关系。然后,这些实例通过可变注意机制从多模态上下文中聚合了重要的语义信息。此外,还将实例到场景的转换器注意力结合起来,以强制局部实例特征与全局场景特征进行协作。这产生了一个增强的BEV表示,更适用于像三维物体检测这样的实例感知任务。
下面一起来阅读一下这项工作~
1. 论文信息
标题:IS-Fusion: Instance-Scene Collaborative Fusion for Multimodal 3D Object Detection
作者:Junbo Yin, Jianbing Shen, Runnan Chen, Wei Li, Ruigang Yang, Pascal Frossard, Wenguan Wang
机构:北京理工大学、澳门大学、香港大学、Inceptio、EPFL、浙江大学
原文链接:https://arxiv.org/abs/2403.15241
代码链接:https://github.com/yinjunbo/IS-Fusion
2. 摘要
鸟瞰视角(BEV)表示已成为自动驾驶场景中描述三维空间的主要解决方案。然而,在BEV表示中的对象通常呈现小尺寸,并且相关的点云上下文固有地稀疏,这导致可靠的三维感知面临着巨大挑战。在本文中,我们提出了IS-Fusion,这是一个创新的多模态融合框架,可以共同捕捉实例级和场景级的上下文信息。IS-Fusion与现有方法有本质上的区别,后者只专注于BEV场景级融合,而IS-Fusion则显式地结合了实例级多模态信息,从而促进了像三维目标检测这样的实例中心任务。它包括一个分层场景融合(HSF)模块和一个实例引导融合(IGF)模块。HSF应用点对网格和网格对区域的转换器,以捕捉不同粒度的多模态场景上下文。IGF挖掘实例候选,探索它们的关系,并为每个实例聚合局部多模态上下文。然后,这些实例作为指导,增强了场景特征,并产生了一个实例感知的BEV表示。在具有挑战性的nuScenes基准测试中,IS-Fusion优于迄今为止所有发表的多模态工作。
3. 动机
IS - FUSION的动机。( a )以前的方法通常关注多模态编码过程中整个场景层面的融合。( b )相比之下,IS - FUSION更强调实例级的融合,探索实例到场景的协作,以增强整体的表达能力。

4. 主要贡献
IS-FUSION为现有的着眼于场景级融合的多模态三维检测方法提供了一种新的见解。通过结合HSF和IGF,它明确促进了场景级和实例级特征之间的协作,从而确保了全面的表示,并产生了改进的检测结果。在nuScenes数据集上,IS-FUSION在所有已发表的3D目标检测中取得了最佳性能。例如在nuScenes验证集上,mAP达到了72.8%,比BEVFusion提高了4.3%的mAP。它还分别比CMT和SparseFusion等并发作品提高了2.5%和1.8%的mAP。
5. 具体原理是啥?
IS-Fusion框架概述。包括点云和多视角图像的多模态输入首先由模式特异性编码器处理以获得初始特征。然后,配备了点到网格和网格到区域转换器的HSF模块利用这些特征生成具有层次上下文的场景级特征。此外,IGF模块识别前K个显著实例,并聚合每个实例的多模态上下文。最后,这些实例被Instance - to - Scene Transformer用于将有价值的信息传播到场景中,从而产生具有改进实例感知能力的最终BEV表示。

HSF模块示意图。 它首先将点级特征聚合为网格级特征,用点对点表示。再通过Grid - to - Region变压器来探索网格间和区域间的特征交互。

IGF模块图解。 首先基于BVE热力图对候选实例进行初始化。然后,我们对这些实例进行推理,同时从图像特征中聚合丰富的语义上下文。最后,这些实例将上下文信息通过一个实例到场景转换注意力机制。

6. 实验结果
在表1中,在nuScenes测试集上与当前主流的基于LiDAR的(用"L"表示)和多模态的(用"L+C"表示)3D目标检测器的性能进行了基准测试。结果表明,IS-FUSION优于所有现有的最先进(SOTA)3D检测算法。具体来说,IS-FUSION的仅LiDAR基线建立在TransFusion-L的基础上。通过探索实例-场景协作融合,IS-FUSION在mAP和NDS分别显著提高了7.5%和5.0%。此外,与一些最近的多模态检测工作(如FocalFormer3D,SparseFusion和CMT)相比,IS-FUSION表现出更优异的性能,分别在mAP上超过它们1.4%,1.0%和1.0%。值得注意的是,IS-FUSION在一些类别中获得了最高的结果,例如摩托车和拖车(仅占数据集的1.08%和2.13%)。这表明IS-FUSION甚至可以从有限的实例中捕获基本信息。通过应用测试时增强和模型集成,IS-FUSION†在竞争激烈的nuScenes排行榜上实现了新的SOTA。

如表2所示,IS-FUSION还在nuScenes验证集上获得了最佳的检测准确率,同时保持了可比较的推理速度。特别是,它在mAP上分别比CMT和SparseFusion高出2.5%和1.8%。总的来说,IS-FUSION的良好性能归功于对多模态实例级别和场景级别上下文的联合建模,以及它们在增强BEV表示中的有效协作。

消融实验。

7. 总结
这项工作提出了一种创新的融合框架ISFUSION,用于多模态三维物体检测。它包括两个基本模块,即分层场景融合(HSF)模块和实例引导融合(IGF)模块。特别地,HSF 中设计了点对网格和网格对区域的转换器注意力来捕获分层场景上下文。此外,IGF 被引入来挖掘实例,探索实例间关系,并整合周围丰富的多模态上下文。作者还提出了一个实例到场景的转换器注意力,以促进实例和场景表示之间的协作。IS-FUSION 在竞争激烈的 nuScenes 基准测试中取得了优越的性能。它为当前基于 BEV 的感知模型提供了一种新的视角,强调了实例级别的上下文,这可能有助于一系列以实例为中心的任务。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉工坊交流群
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群
添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球
3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:星球视频课程近20门(价值超6000)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等。

3D视觉相关硬件
图片 | 说明 | 名称 |
---|---|---|
![]() | 硬件+源码+视频教程 | 精迅V1(科研级))单目/双目3D结构光扫描仪 |
![]() | 硬件+源码+视频教程 | 深迅V13D线结构光三维扫描仪 |
![]() | 硬件+源码+视频教程 | 御风250无人机(基于PX4) |
![]() | 配套标定源码 | 高精度标定板(玻璃or大理石) |
添加小助理:cv3d007或者QYong2014 咨询更多 |
— 完 —
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
3D视觉科技前沿进展日日相见 ~