最新SOTA!BEVFusion4D:BEVFusion升级版3D检测时空新框架!

作者 | Hongxiang Cai等  编辑 | 自动驾驶与AI

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心【多传感器融合】技术交流群

后台回复【多传感器融合综述】获取图像/激光雷达/毫米波雷达融合综述等干货资料!

1. 论文信息

题目:BEVFusion4D: Learning LiDAR-Camera Fusion Under Bird’s-Eye-View via Cross-Modality Guidance and Temporal Aggregation

作者:Hongxiang Cai, Zeyuan Zhang, Zhenyu Zhou, Ziyin Li, Wenbo Ding, Jiuhua Zhao

论文链接:https://arxiv.org/abs/2303.17099

2. 引言

BEVFusion取得的效果引起了社区的广泛关注。在 LiDAR-相机融合方案中,不管另一模态是否有效,单模态算法也应该正常工作,而两个模态一起工作时,能进一步提高感知准确率。因此新方法BEVFusion,相机流不依赖于 LiDAR 数据的输入,从而弥补了之前方法的缺陷。BEVFusion 有两个独立的流,将相机和激光雷达的原始输入编码为同一个 BEV 空间的特征。然后设计了一个简单的模块来融合这些 BEV 特征,再将最终的特征输入预测 head。该框架是通用的,可以在该框架中加入相机或激光雷达的单模态 BEV 模型。在相机流使用了 LSS,将多视角图像特征映射成 3D 自车坐标系特征,生成相机 BEV 特征。在 LiDAR 流,选择了三个主流模型,两个 voxel-based 和一个 pillar-based,将 LiDAR 特征编码到 BEV 空间。而这种方法又有哪些改进的方向呢?

ee7209b8fa8b0c74d2fbe6e5821f405a.png

首先让我们思考,三维的目标检测是怎样通过多模态的信息完成的?现有的主流方法通过将LiDAR和相机信息集成到鸟瞰图中,可以通过多模态实现3D物体检测。现有方法大多采用独立的双分支框架生成LiDAR和相机BEV,然后进行自适应模态融合。由于点云提供更准确的定位和几何信息,它们可以作为从图像中获取相关语义信息之前的可靠空间先验。因此,设计了一种“LiDAR-Guided View Transformer”(LGVT),以有效地在BEV空间中获取相机的特征,并因此使整个双分支融合系统受益。LGVT将相机BEV作为原始语义查询,反复利用LiDAR BEV的空间线索,从多个相机视图中提取图像特征。此外,该框架通过提出的"时间可变对齐"(TDA)模块将其扩展到时间域,旨在从多个历史帧中聚合BEV特征。包括这两个模块,该框架被称为BEVFusion4D,在3D物体检测方面实现了最先进的结果。

dc06e6b6929022ff5d2cbffe1d7c68be.png

3D物体检测任务在这些年受到了极大的关注,并且在自动驾驶领域已经变得司空见惯。作为两种基本的传感器模态,LiDAR和相机能够以不同的方式获取周围环境信息。由LiDAR传感器生成的点云通过发射的波长来感知场景,它擅长描绘物体的准确空间位置并提供可靠的几何信息。与点云相比,图像数据记录了场景的高度详细的图像,并携带更密集的语义和纹理信息。因此,它被认为是对前一种传感器的重要补充。尽管面临挑战,但将来自两种不同模式的传感器信息相互融合被认为是一个具有高价值的研究领域。由于LiDAR和相机的固有特性,有效地整合两种模态的表示仍然是一个研究课题。像TransFusion这样的基于查询的方法提出了一个两阶段管道,以按顺序关联LiDAR和图像特征。然而,系统的性能在很大程度上取决于查询初始化策略。最近的研究证明了双分支融合框架的有效性。如图所示,从骨干网络编码的特征被转移并统一到中间特征表示中,比如鸟瞰图(BEV)。尽管这种范式在社会中变得越来越流行,但摄像头在感知几何信息方面的困难限制了摄像头分支的影响,并阻碍了系统融合图像数据中的语义信息。为了有效利用摄像头数据并在融合过程中进一步保持语义信息,我们提出了一种简单但有效的解决方案,旨在通过同时使用LiDAR的明确指导来增强摄像头BEV特征。在图1(c)中所示的方案中,我们设计了一种基于注意力机制的相机视角变换器,命名为LGVT。它学习有效地获取目标的语义信息,条件是具有先验的LiDAR信息。由于LiDAR的点云可以相对准确地描述场景的空间分布,因此它们可以用作校准目标相关语义的重要先验信息,从而为融合提供更有价值的信息。在图2中,我们将我们的摄像头BEV可视化结果与BEVFusion进行了比较。由于LiDAR的空间先验,场景轮廓和目标位置可以轻松地在我们的摄像头BEV特征中被区分出来,而在BEVFusion中则不可见。

另一方面,邻近帧编码的补充视角和运动线索促使最近的工作将时间信息整合到框架中。作为先驱之一,LIFT尝试在融合框架中利用时空信息。如图(b)所示,LIFT将输入的4D数据作为一个整体,并直接通过经典的Transformer架构聚合顺序跨传感器数据。然而,由于全局自注意机制,融合系统会受到计算负荷的影响。相反,我们将空间和时间特征分别融合在两个模块中,以显著减少总体成本并降低整合时空信息的复杂性。此外,为了有效地聚合连续帧的空间融合BEV特征,我们提出了一种基于可变注意力策略的时间融合模块。通过动态关系建模和稀疏采样的能力,我们的提出的模块学习如何更好地整合时空信息。

3. 方法

4a0d73a8693810f8cd8ad5cdbd294ffd.png

提出的时空融合框架的整体流程包括特征提取、空间融合和时间融合阶段。通过独立的特征提取主干对LiDAR点云和相机图像进行处理。对于空间融合,提出的LGVT将多视图图像特征融合到以LiDAR空间先验为条件的相机BEV中。然后进行空间融合以统一多模态BEV特征。对于时间融合,通过一个TDA模块聚合空间融合后的BEV特征的历史信息,以实现时空特征交互。

3.1 LiDAR and Camera Features Extraction

首先自然是获取多个模态的信息。与通用的方法一样,在特征提取阶段,作者采用了以前工作中的双分支范例来处理跨模态数据。具体而言,当前时间的LiDAR点云和多视角图像被馈送到两个独立的骨干网络中形成高级特征表示。对于LiDAR流,输入点云 P ∈ R×N×D 通过体素化[49]转换为统一的网格,并进一步通过3D的稀疏卷积在BEV空间中形成特征。

3.2 Spatial BEV Features Fusion
1e880b2be207b0e24eea9ebc07657d9f.png

提取的 LiDAR 和图像特征分别传递了几何和语义的基本信息。为了将这些特征进一步结合到统一的 BEV 空间中,需要进行视图转换,将多个 2D 图像特征投影到相机 BEV 空间中。以往的方法LSS来通过在 3D 空间中提升具有不同深度概率的 2D 特征来实现这个任务。然而,由于该模块缺乏可靠的深度监督,通常会导致性能较差。相比之下,我们依靠预训练的 LiDAR BEV 中相对准确的空间信息来获取相应的语义特征。这使得我们提出的 LGVT能够有效地将  图像特征投影到  空间中。

LiDAR 引导的视图变换器模块。LGVT 利用可变形注意力模块,在 LiDAR 空间先验的指导下,将  图像特征转换为  特征。图 4 显示了 LGVT 模块的结构。在第  层,该模块将上一层相机 BEV 特征  和 LiDAR BEV 特征  融合到查询特征  中,然后使用可变形交叉注意力[51]与  图像特征  进行更新相机 BEV 特征。LGVT 模块可以表示为:

其中  是第  层中相机 BEV 特征, 是连接操作。

相机 BEV 特征初始化。在第一层,我们预定义了  个高度用于空相机 BEV 特征,并通过将每个 BEV 网格填充为相应的  图像特征来进行初始化。具体来说,对于一个空的相机 BEV 特征网格 ,我们预定义了  个高度 ,并使用内参和外参将  投影到  多视角图像特征上。然后我们对每个高度的最大图像特征进行采样,并计算所有视角中有效图像特征的平均值。最后,相机 BEV 特征将被初始化为采样的图像特征。该过程可以表示为:

其中  是视角数量, 是有效采样位置的数量,。

之后就是对信息进行LiDAR-Camera BEV Features Fusion,也就是利用MLP进行特征的融合。

3.3 Temporal BEV Features Fusion
8b008bc365bbc912e80f857455528b20.png

Temporal BEV Features Fusion是一种模块,用于以可忽略的附加内存成本和计算预算的方式循环聚合多个帧。它将框架扩展到时间域,并从多个历史帧中聚合BEV特征。使用Temporal BEV Features Fusion模块来对齐来自不同帧的特征,并使用时间注意机制来加权每个帧的重要性。TDA模块有助于捕捉时间信息,提高了3D物体检测性能。其实听起来很高级,但操作非常直接易懂。主要分为两个步骤

Ego Motion Calibration:这是用于对齐来自不同帧的特征的过程。它用于估计两个连续帧之间自我车辆的运动并校正由此引起的不对齐。该校准过程可以用以下公式描述:

矩阵  被称为在时间  上与  对齐的自我运动变换矩阵。使用可变形的注意力模块对来自不同帧的特征进行对齐,使用“自我运动校准”模块来估计自我车辆的运动。然后使用校准后的特征进行3D物体检测。

Temporal Deformable Alignment:用于以可忽略的附加内存成本和计算预算的方式循环聚合多个帧。它使用可变形卷积层对来自不同帧的特征进行对齐,使用时间注意机制来加权每个帧的重要性。TDA模块有助于捕捉时间信息,提高了3D物体检测性能。

具体操作表现为,将两个连续的校准帧  和  连接为 。然后使用可变形注意力机制,将  作为查询, 和  作为值,得到  和 。接下来,TDA在元素级别上计算  和  的平均值,将其加到帧  上,以更新帧 。然后可以使用更新后的帧  来融合后续的 BEV 特征。该过程可以表示为:

其中 。

4. 实验

08d05b53f88737ff247a24b877a75d57.png

来看所提出的BEVFusion4D框架在nuScenes验证集上的评估结果。该表格展示了该框架在是否使用时间融合模块的情况下,对不同物体类别(包括施工车辆、行人和交通锥)的性能表现。用于评估的数据包括相机、激光雷达和时间信息。如表格所示,蓝色和红色突出显示了第二好和最佳结果。表格中的符号包括C.V.表示施工车辆,Ped表示行人,T.C.表示交通锥。数据符号包括C表示相机,L表示激光雷达,T表示时间信息。总体而言,所提出的框架在3D物体检测方面表现优于先前的方法,在nuScenes验证集上实现了72.0%的mAP和73.5%的NDS,达到了最先进的水平。该框架包括激光雷达引导的视角变换器(LGVT)模块,可以有效地在BEV空间中获取相机表示,并有益于整个双分支融合系统。该框架还通过提出的时间可变形对齐(TDA)模块扩展到时间域,从多个历史帧中聚合BEV特征。LGVT模块强调激光雷达的空间先验,在生成高效的相机BEV时可以显著提高某些类别(如卡车)的检测效果。nuScenes数据集是一个针对自动驾驶研究进行基准测试的大规模多模态数据集,并且实验是在每个传感器的注释关键帧上进行的。

b81926e306e697e7b36faaf7a864e287.png

上表表示了nuScenes测试集上提出的框架BEVFusion4D的评估结果。该框架将LiDAR和相机信息集成到鸟瞰图中,用于自动驾驶中的3D物体检测。表格显示了该框架在有/无时间融合模块的情况下的性能。结果以平均精度(mAP)和标准化检测得分(NDS)的形式呈现。检测到的对象类别包括建筑车辆(C.V.)、行人(Pod.)和交通锥(T.C.)。所使用的数据源包括相机(C)、LiDAR(L)和时间(T')。蓝色和红色表示第二好和最佳结果。TDA模块通过在较长时间跨度上聚合历史信息来提高性能。该论文将所提出的LGVT模块与常用视图转换模块LSS进行了比较,并表明所提出的模块在所有设置中都表现更好。该论文还比较了LGVT中的各种相机查询策略,并验证了跨模态查询交互的必要性。该论文在nuScenes数据集上进行了实验,该数据集是用于自动驾驶研究的大型多模态数据集基准。该数据集包括近1000个场景,分为700个训练、150个验证和150个测试。校准的相机以12 FPS捕获6个RGB图像,安装的32束LiDAR以20 FPS辐射场景。结果表明,所提出的框架在3D物体检测方面实现了最先进的结果。

9d7fef134173d32db6f171c17fc366a8.png

对于TDA模块的作用,可以在可忽略的附加内存成本和计算预算的情况下,对多个帧进行循环聚合。它将框架扩展到时间域,并从多个历史帧中聚合BEV特征。TDA模块使用可变形卷积层来对齐来自不同帧的特征,使用时间注意机制来加权每个帧的重要性。TDA模块有助于捕捉时间信息,提高了3D物体检测性能。所提出的名为BEVFusion4D的框架在3D物体检测方面取得了最先进的结果,在nuScenes验证集上的mAP为72.0%,NDS为73.5%,在nuScenes测试集上的mAP为73.3%,NDS为74.7%。

5. 讨论

本文提出的框架在自动驾驶领域具有实际意义。该框架可以通过将LiDAR和相机信息集成到鸟瞰图中,帮助实现更好的3D物体检测。LiDAR导向的视图变换器(LGVT)和时间可变对齐(TDA)模块可以帮助在BEV空间中获得更好的图像表示和循环聚合多个帧,从而在实际场景中实现更准确、可靠的物体检测。所提出的框架可以作为一个强大的基线,激发未来多传感器融合研究的灵感。但是该方法的一个limitation是它只关注于nuScenes数据集,相对于其他数据集来说,这是一个相对较小的数据集。因此,需要进一步研究该提出的框架对其他数据集的泛化能力。另一个limitation是该提出的框架需要大量的计算资源,这可能会限制其在实际场景中的实际应用。

与采用独立双分支框架的现有方法相比,使用点云作为从图像中获取相关语义信息的空间先验有什么优势?优势在于,点云提供更准确的定位和几何信息,可以作为从图像中获取相关语义信息的可靠空间先验。这有助于在自动驾驶中实现更好的3D物体检测。相比之下,现有方法大多采用独立的双分支框架生成LiDAR和相机BEV,然后进行自适应模态融合。然而,这种方法可能没有使用点云作为空间先验那么有效。

6. 结论

该论文提出了一种名为 BEVFusion4D 的新型 3D 对象检测时空框架,它将 LiDAR 和摄像头信息集成到鸟瞰图 (BEV) 中,以在自动驾驶中实现更好的对象检测。该框架在空间和时间域中包含两个专用模块,以促进多帧跨模态信息聚合。LiDAR-Guided View Transformer (LGVT) 旨在帮助通过 LiDAR 先验引导在 BEV 空间中获得更好的图像表示。提出了时间可变形对齐 (TDA) 模块以循环聚合多个帧,而额外的内存成本和计算预算可忽略不计。该框架在 nuScenes 验证集上取得了 72.0% mAP 和 73.5% NDS,在 nuScenes 测试集上分别达到了 73.3% mAP 和 74.7% NDS,在 3D 对象检测中取得了最先进的结果。

(一)视频课程来了!

自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV感知、多传感器标定、传感器部署、自动驾驶协同感知、语义分割、自动驾驶仿真、L4感知、决策规划、轨迹预测等多个方向学习视频,欢迎大家自取(扫码进入学习)

6b0f50984deeb1f16507a6121a8a8fe9.png

(扫码学习最新视频)

视频官网:www.zdjszx.com

(二)国内首个自动驾驶学习社区

近1000人的交流社区,和20+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、Occpuancy、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

baaccb652f60c965166e694b3538761e.jpeg

(三)自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向;

709b9859821723c3916068c01f97327f.jpeg

添加汽车人助理微信邀请入群

备注:学校/公司+方向+昵称

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值