ECCV 2022 | Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object Detection

ECCV 2022 | Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object Detection

论文标题: Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object Detection
中文标题: 同质多模态特征融合和交互的三维物体检测
论文发表会议或期刊: ECCV 2022
论文地址: https://link.springer.com/chapter/10.1007/978-3-031-19839-7_40
论文代码:
数据集地址:
关键词: 自动驾驶;多模态三维目标检测;激光雷达;多模态特征融合

零、个人总结

常规2D与3D跨模态的图像特征融合方法经常会遭受严重的信息丢失,从而导致网络的整体性能下降。为了解决这些问题,提出了同质多模态特征融合与交互方法(HMFI)用于三维目标检测,其通过在点云和图像之间构建同质结构,通过将相机特征转换到LiDAR三维空间来避免投影信息的丢失。其中,图像体素提升模块(IVLM)能够将二维图像特征提升到三维空间,生成同质的图像体素特征;查询融合机制(QFM)通过引入自注意力机制将体素化的点云特征与来自不同区域的图像特征进行融合;体素特征交互模块(VFIM)能够增强同质点云和图像体素表示中相同对象语义信息的一致性,增强复杂背景下的判别能力。

一、摘要

多模态三维目标检测一直是自动驾驶领域的研究热点。然而,探索稀疏的3D点与密集的2D像素之间的跨模态特征融合并非易事。最近的方法要么将图像特征与投影到二维图像平面上的点云特征相融合,要么将稀疏的点云与密集的图像像素结合起来。这些融合方法经常遭受严重的信息丢失,从而导致性能下降。为了解决这些问题,我们在点云和图像之间构建同质结构,通过将相机特征转换到LiDAR三维空间来避免投影信息的丢失。本文提出了一种同质多模态特征融合与交互方法(HMFI)用于三维目标检测。具体来说,我们首先设计了一个图像体素提升模块(IVLM),将二维图像特征提升到三维空间,并生成同质的图像体素特征。然后,通过引入基于自注意力的查询融合机制(QFM),将体素化的点云特征与来自不同区域的图像特征进行融合;接下来,我们提出了一个体素特征交互模块(VFIM)来增强同质点云和图像体素表示中相同对象语义信息的一致性,可以为跨模态特征融合提供对象级对齐指导,增强复杂背景下的判别能力。我们在KITTI和Waymo开放数据集上进行了大量的实验,与最先进的多模态方法相比,所提出的HMFI取得了更好的性能。特别是在KITTI基准上对自行车手的三维检测,HMFI大大超过了所有已发表的算法。

二、引言

3D物体检测是一项重要的任务,其目的是对三维空间中的每个物体进行精确的定位和分类,从而使车辆能够全面地感知和了解周围环境。到目前为止,已经提出了各种基于激光雷达和基于图像的3D检测方法。

基于激光雷达的方法比基于图像的方法性能更好,因为点云包含精确的空间信息。然而,激光雷达点通常是稀疏的,没有足够的颜色和纹理信息。基于图像的方法在捕获语义信息方面表现较好,但缺乏深度信号。因此,多模态三维目标检测是一个很有前途的方向,可以充分利用图像和点云的互补信息。
在这里插入图片描述
目前的多模态融合方法大致可分为两类:决策级融合和特征级融合。决策级融合方法将检测到的目标以各自的模式集成在一起,其性能受到每个阶段的限制。特征级融合更为普遍,因为它们融合了两种模式的丰富信息特征。图1(a)描述了三种代表性的特征级融合方法。第一种是在感兴趣区域(RoI)融合多模态特征。然而,这些方法在将三维点投影到二维平面的鸟瞰图(BEV)或前视图(FV)上时存在严重的空间信息丢失,而三维信息对精确定位三维目标至关重要。另一种工作是在点/体素水平上进行融合,可以在更细的粒度上实现互补融合,并涉及在3D点或2D像素上组合低级多模态特征。然而,它们只能近似地建立点/体素特征与图像特征之间相对粗糙的对应关系。此外,由于二维密集图像像素与三维稀疏LiDAR点的投影不匹配,这两种特征融合方案往往存在严重的信息丢失问题。

为了解决上述问题,我们提出了一种同质融合方案,将图像特征从二维平面提升到三维密集体素结构。在同构融合方案中,我们提出了同构多模态特征融合与交互方法(HMFI),该方法利用了多模态特征中的互补信息,减轻了因降维映射造成的严重信息丢失。在此基础上,建立了点云特征与图像特征在对象级的跨模态特征交互,增强了模型融合点云信息与图像语义信息的能力。

具体而言,我们设计了图像体素提升模块(IVLM),首先将二维图像特征提升到三维空间,在点云作为深度提示的引导下,构建二维图像的均匀体素结构进行多模态特征融合。融合这两个多模态数据不会造成信息丢失。我们还注意到,跨模态数据的同质体素结构有助于特征融合和交互。因此,我们引入了查询融合机制(QFM),该机制引入了一种基于自注意力的操作,可以自适应地将点云和图像特征结合起来。每个点云体素将查询所有图像体素,实现同质特征融合,并与原始点云体素特征结合形成摄像头-激光雷达联合特征。QFM使每个点云体素能够自适应地感知公共三维空间中的图像特征,并有效地融合这两种同质表示。

此外,我们探索在同质点云和图像体素特征之间建立特征交互,而不是基于感兴趣区域(RoI)的池化,将其应用于将低水平LiDAR和相机特征与相机-LiDAR联合特征融合。我们认为,虽然点云和图像表示是不同的模态,但在同质结构中,对象级语义属性应该是相似的。因此,为了加强点云和图像在共享三维空间中的抽象表示,并利用相同物体属性在两种模式下的相似性,我们提出了一种物体级的体素特征交互模块(VFIM),以提高点云和图像在三维RoI中的同质表示的一致性。具体而言,我们使用体素RoI池,根据预测的建议提取这两个同质特征中的特征,并产生成对的RoI特征集。然后,我们采用每对RoI特征之间的余弦相似度损失,并强制点云和图像中对象级属性的一致性。在VFIM中,在这些同构配对的RoI特征中构建特征交互,提高了两个同构表示之间的对象级语义一致性,增强了模型实现跨模态特征融合的能力。在KITTI和Waymo开放数据集上进行的大量实验表明,与最先进的多模态方法相比,所提出的方法可以获得更好的性能。我们的贡献总结如下:

  1. 提出了一种图像体素提升模块(IVLM),将二维图像特征提升到三维空间,构建两个同质特征进行多模态融合,同时保留图像和点云的原始信息。
  2. 引入查询融合机制(QFM),有效融合点云体素特征和图像体素特征的两种同质表示,使融合体素能够自适应地感知统一三维空间中每一帧的物体。
  3. 为了提高同质点云和图像体素特征中相同目标语义信息的一致性,提出了体素特征交互模块(VFIM),该模块可以指导跨模态特征融合,大大提高检测性能。
  4. 大量的实验证明了所提出的HMFI的有效性,并在KITTI和Waymo开放数据集上取得了具有竞争力的性能。值得注意的是,在KITTI基准上,HMFI在检测自行车手方面超过了所有已公布的竞争方法。

三、方法

3.1 网络结构

所提出的同质多模态特征融合与交互(HMFI)方法的总体架构如图2所示。我们首先利用点编码网络提取点云的特征,然后将这些特征集合在一起,得到体素特征。

然后利用查询融合机制(QFM)将同质点体素P与图像体素I融合。接着,我们使用检测模块生成基于P∗的每个物体的分类和三维边界框。同时,提出了体素特征交互模块(VFIM),基于检测结果在对象级进行特征交互,以提高这两个同质跨模态特征之间的语义一致性。我们将在以下几节中介绍详细信息。
在这里插入图片描述

3.2 图像体素提升模块(IVLM)

为了有效地编码图像中的深度感知信息,构建多模态特征融合和交互的同质结构,我们提出了图像体素提升模块(IVLM),通过关联图像特征和离散深度图,将二维图像特征提升到三维空间。流程如图3所示。
在这里插入图片描述
为了构造图像特征体素,我们将图像平面特征转换为可在图像特征中编码深度信息的视锥体特征G。因此,我们将图像特征映射F中每个像素(m, n)的向量Fm,n沿图像截锥体透视投影的射线散射到深度库Dm,n所确定的三维空间中。

3.3 查询融合机制(QFM)

为了利用点云和图像的互补信息,我们引入了查询融合机制(QFM),让每个点云体素特征感知整个图像,并有选择地组合图像体素特征。我们认为激光雷达体素可以感知整个图像体素特征,而不是简单地融合跨模态体素对。为了有效地聚合两种模态的这些互补信息,我们建议使用自注意力模块[48],该模块将图像和点云的每个体素特征向量视为同质标记。

具体地说,我们使用点云体素特征Fp作为Query,图像体素特征Fi作为Key和Value进行融合,形成融合体素特征P*。

3.4 体素特征交互模块(VFIM)

激光雷达和相机对场景中相同的物体有不同的表示。尽管模态彼此不同,但对象级表示应该是相似的。基于这一观察结果,我们设计了一个体素特征交互模块(VFIM),基于点云和图像中对象级属性的一致性来构建这两个跨模态特征之间的特征交互。我们可以充分利用同质特征P和I之间的相似性约束,结合目标级引导,实现更好的跨模态特征融合。如图4所示。
在这里插入图片描述

3.5 损失函数

在之前的方法中,图像主干直接使用来自其他外部数据集(如ImageNet)的固定预训练权值进行初始化。相反,我们的HMFI是通过端到端两阶段的训练过程进行训练的。我们利用多任务损失函数对整个网络进行联合优化。

四、实验

在本节中,我们评估了提出的HMFI在KITTI和Waymo开放数据集上的性能。

4.1

(1)KITTI是一个广泛使用的数据集。它包括7481个训练帧和7518个测试帧,对街道上的汽车、行人和骑自行车的人进行了2D和3D的注释。根据物体的大小、遮挡程度和截断程度,将物体分为简单、中等和困难三个难度级别。为了验证,通常将训练样本分为包含3712个样本的训练集和包含3769个样本的验证集。
(2)Waymo开放数据集(WOD)是一个大规模的自动驾驶数据集。总共有798个场景用于训练,202个场景用于验证。每个场景都是一个连续的片段,大约有20秒的传感器数据。请注意,WOD中的相机仅覆盖约250°视场(FOV),这与激光雷达点和3D标签的360°不同。为了遵循与KITTI相同的设置,我们只选择前置摄像头视场中的LiDAR点和Ground-Truth进行训练和评估。由于数据集规模大、帧率高,我们每隔5帧对所有训练样本进行采样,形成新的训练集(~32k帧)。

4.2 实验结果

4.2.1 KITTI数据集上的结果

在这里插入图片描述
KITTI测试集:KITTI测试分割的实验使用40个召回位置的平均精度(AP)进行评估。我们通过将检测结果提交给KITTI服务器进行评估,将我们的HMFI与其他最先进的方法进行比较。表1给出了在KITTI测试集上与目前最先进的3D目标检测方法的定量比较。很明显,在汽车和自行车的所有难度水平上,HMFI分别达到了比最先进的方法更好或相当的性能。HMFI比3D-CVF[59]获得了高达1.88%的增益(中等难度),这是基于特征级融合的最佳方法。除了Pyramid RCNN-PV之外,HMFI优于大多数基于激光雷达的3D物体探测器,Pyramid RCNN-PV引入原始点特征以获得更好的结果,但效率较差。相比之下,我们的方法在相同的设置下优于Pyramid RCNN-V。特别是,我们的HMFI在骑车人的3D检测方面大大超过了所有已发表的算法。请注意,表1中的模型都不能同时在汽车和自行车方面达到比我们的模型更好的性能。

KITTI验证集:此外,我们还报告了在11个召回位置计算KITTI验证集上的AP性能。如表2所示,我们的HMFI在验证集合上达到了中等水平的最先进性能,甚至优于基于激光雷达的方法。
综上所述,在验证集和测试集上的结果一致表明,我们提出的HMFI具有优越的3D检测性能。

具体来说,我们在通常激光雷达测量点很少的行人和骑自行车的人身上取得了令人满意的性能。如图1 (b)所示,我们还报告了一些特征级融合方法的每帧推理时间,我们的HMFI在所有方法中实现了精度和效率的最佳平衡。
在这里插入图片描述

4.2.2 Waymo开放数据集上的结果

为了进一步验证所提出的HMFI的有效性,我们还在大规模Waymo开放数据集上进行了实验。另外,还引入了对5分以上的物体计算1级地图,对1~5分的物体计算2级地图的难度等级。表3总结了我们的方法和基线的性能。很明显,我们的HMFI在所有对象类和两个难度级别上都表现出色。特别是,我们在LEVEL2上对行人和骑自行车的mAP分别达到了+2.17%和+1.86%,这表明我们的方法在检测少于5个激光雷达点的物体上表现出色。在Waymo开放数据集上的结果进一步验证了HMFI的有效性和泛化性。
在这里插入图片描述

4.2.3 消融实验

在本节中,我们提出了消融实验以验证HMFI方法中每个成分的效果。在KITTI验证集上进行消融实验。我们采用易、中、难3个难度等级的平均准确率(mAP)通过11个召回位置进行评价。如表4所示,我们的HMFI可以在三个对象的所有难度级别上带来超过1.8%的AP性能提升。

查询融合机制的效果:该查询融合机制根据图像特征与点云特征之间的注意图,根据图像特征与点云特征之间的相关性,有选择地将图像特征与点云特征进行融合。在表4中,我们观察到QFM可以产生增强的联合摄像头-雷达特征,并在易、中、难的数据中分别得到了0.83%,0.58%和0.62%的性能提升。

多模态特征结构的影响:在表4中,我们观察到IVLM在易、中、难的数据中可以带来0.35%、0.60%和0.72%的性能提升。IVLM利用点云体素特征将图像特征提升到同质空间,不仅便于特征融合,而且可以实现两个同质特征之间的对象级语义一致性建模。

体素特征交互的效果:我们观察到,体素特征交互模块(VFIM)在易、中、难的数据中分别提高了0.84%、0.95%和0.53%。这表明我们的VFIM在我们的多模态检测框架中起着关键作用。它可以提高两个同构特征之间的对象级语义一致性,并使检测器能够基于对象级语义相似度聚合跨同构表示的配对特征。
在这里插入图片描述

五、结论

本文提出了一种同质多模态特征融合与交互(HMFI)方法,该方法将图像和点云特征融合在一个同质结构中,并加强了两个同质特征之间对象级语义信息的一致性。我们提出了一个图像体素提升模块(IVLM),将2D图像特征提升到3D空间,并使用点云体素特征生成均匀的图像体素特征。然后,通过查询融合机制(QFM)对图像和点云特征进行选择性组合;此外,基于对象级语义信息的相似性,在同构图像和点云体素特征之间构建特征交互。在KITTI和Waymo开放数据集上进行的大量实验表明,我们提出的HMFI可以获得显着的性能提升。特别是,对于KITTI基准上的自行车检测,HMFI大大超过了所有已发布的算法。

  • 19
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值