MambaBEV: An efficient 3D detection model with Mamba2:第一个将 Mamba2 集成到基于摄像头的检测模型中的模型

地址:https://arxiv.org/pdf/2410.12673

摘要

自动驾驶中精准的 3D 物体检测依赖于鸟瞰图 (BEV) 感知和有效的时间融合。然而,现有的融合策略——基于卷积层或可变形自注意力机制——在 BEV 空间中难以进行全局上下文建模,导致大型物体的准确率较低。为了解决这个问题,我们提出了 MambaBEV,这是一种基于 BEV 的新型 3D 物体检测模型,它利用了 Mamba2——一种针对长序列处理优化的高级状态空间模型 (SSM)。我们的主要贡献是 TemporalMamba,这是一个时间融合模块,它通过引入针对 Mamba 序列处理定制的 BEV 特征离散重排机制来增强全局感知。此外,我们提出了基于 Mamba 的 DETR 作为检测头,以改进多物体表征。在 nuScenes 数据集上的评估表明,MambaBEV-base 实现了 51.7% 的 NDS 和 42.7% 的 mAP。此外,端到端自动驾驶范例验证了其在运动预测和规划方面的有效性。我们的研究结果凸显了SSM在自动驾驶感知方面的潜力,尤其是在增强全局上下文理解和大型物体检测方面。

1 介绍

确保准确可靠的 3D 物体检测对于自动驾驶系统至关重要,直接影响车辆的安全性和路径规划。传统的感知方法,例如霍夫变换 [1] 和基于关键点的特征提取 [2],为物体检测奠定了基础,但却面临着鲁棒性有限和尺度方差较大的问题。基于深度学习的感知方法的兴起显著提高了检测精度,但挑战依然存在,尤其是基于单目摄像头的方法 [3],它们存在深度估计误差和盲区,对车辆安全构成风险。

为了解决这些问题,研究人员探索了多摄像头感知系统,例如双目立体匹配 [4] 和环视摄像头网络。虽然这些方法改进了距离估计,但也带来了计算成本高、冗余度高以及跨摄像头目标重识别困难等挑战。一个更有前景的解决方案是基于鸟瞰图 (BEV) 的 3D 物体检测,它将多摄像头输入整合为统一的自上而下的表示,从而增强了距离估计、障碍物检测和跨视图信息共享 [5]。

自动驾驶感知的另一个关键方面是时间聚合。虽然单帧检测提供了一种简单的方法,但它经常受到遮挡、漏检以及帧间时间不一致的影响。为了解决这些局限性,人们开发了时间融合技术来融合历史特征,从而显著提高了检测的鲁棒性和准确性 [6]。传统的时间融合方法,例如可变形自注意力机制 [6],可以动态采样空间特征,相比全局自注意力机制,可以提高计算效率。然而,这些方法在全局上下文建模和长距离交互方面存在困难。例如,在 COCO 2017 验证集等大规模检测任务中,基于可变形注意力机制的模型 (Deformable-DETR) [7] 对大型物体的平均精度 (AP) 比全局自注意力机制低 2.9%。

类似地,在基于 BEV 的 3D 物体检测中,像 BEVFormer [6] 这样的可变形自注意力模型对小物体(例如行人、自行车)表现出更高的准确率,但对较大物体(例如卡车、公共汽车)的性能则有所下降(表 I)。造成这种差异的原因是,可变形注意力模型中采样点稀疏限制了空间覆盖范围,并且缺乏明确的全局交互机制阻碍了有效的跨尺度特征融合。即使增加采样点的数量也无法完全解决这个问题,因为可变形注意力模型主要聚合局部特征,而不是捕捉整体空间关系。

解决这些限制对于提升自动驾驶中的 3D 物体检测性能至关重要。近年来,状态空间模型 (SSM) 已成为一种有前途的长序列建模替代方案,与 Transformer [8] 相比,它表现出卓越的效率和可扩展性。其中,Mamba 是一种新型的结构化 SSM,在多个任务中表现出色。其改进版本 Mamba2 进一步提升了计算效率和长距离依赖关系建模能力 [9]。这些进展为开发一种克服可变形注意力机制局限性的新型时间融合方法奠定了坚实的基础。将 Mamba2 集成到 3D 自动驾驶感知中代表着一个创新且充满希望的方向。为了应对时间融合模块中的挑战,我们引入了 MambaBEV,这是一个基于 BEV 和 Mamba2 的 3D 感知模型。MambaBEV 强调了状态空间模型在自动驾驶感知系统中的可行性和潜力,并提供了一种提高大型物体检测精度的解决方案。我们在论文中的贡献可以概括为以下几点:

• 我们引入了一个基于 mamba2 的 3D 物体检测模型 MambaBEV。据我们所知,这是首次尝试将 Mamba2 集成到基于摄像头的 3D 物体检测网络中。
• 我们提出了一个基于 mamba2 的时间融合模块 TemproalMamba,展示了使用 mamba 进行时间融合的可能性和未来展望。为了适应 mamba 序列扫描的特性,我们设计了 BEV 特征离散重排机制。
• 在解码器层,我们基于 Mamba 交叉注意力模块设计了一个基于 Mamba 的 DETR 头。
• 我们在 3D 物体检测任务和 VAD [10] 采用的端到端自动驾驶范式中进行了大量的实验。

III. METHODOLOGY

在这里插入图片描述

在这里插入图片描述

MambaBEV 采用先进的状态空间模型,包含两个主要组件。第一个组件是 TemporalMamba 模块,这是一个基于 Mamba-CNN 架构的融合引擎,它能够跨连续帧集成 BEV 特征,以增强时间一致性和检测鲁棒性。第二个组件是基于 Mamba 的 DETR,这是一个创新的解码器头,可以处理融合的特征,从而精确定位和分类 3D 对象。

A. 架构设计与特征编码
MambaBEV 系统架构(如图 1 所示)集成了四个基本组件,用于处理来自六个 RGB 摄像头的输入。首先,输入由图像特征编码器处理,该编码器利用一个强大的主干网络(由在 ImageNet 上预训练的 ResNet-50、ResNet-101-DCN 和基于 FCOS3D 检查点初始化的 VoV-99 组成),以高效地从每幅图像中提取高级特征。也可以使用另一个主干网络 Vmamba [21]。然后,使用特征金字塔网络 (FPN) 增强提取的特征,生成对检测不同尺度目标至关重要的多尺度特征。
这些多尺度特征图随后由空间交叉注意力 (SCA) 模块处理,生成统一的鸟瞰图 (BEV) 特征图。TemporalMamba 模块通过融合历史和当前 BEV 特征来丰富这种融合,从而增强特征上下文,以实现准确的目标检测。丰富的特征经过多个处理层进一步细化,然后由基于 Mamba 的 DETR 模块进行分析,最终实现目标检测。

B. TemporalMamba 模块
传统的基于 BEV 的 3D 目标检测的时间融合策略依赖于可变形自注意力机制,该机制动态采样空间特征以聚合历史和当前 BEV 特征。例如,时间自注意力 (TSA) 模块的运作方式如下:给定历史 BEV 特征图和当前特征图,TSA 将它们连接起来,并使用线性层生成注意力权重和偏移量。然后,基于这些权重并行计算每个表示 BEV 特征的查询。
在这里插入图片描述

实验结果表明,该范式存在局限性。表一列出了各类别的部分结果,我们发现,这些可变形自注意力模块在检测自行车和行人等小型物体方面的表现远优于检测公交车和工程车辆等大型物体。其他基于可变形自注意力的模型也得到了同样的结果。其原因在于,该机制受限于每个参考查询只能与三个查询进行交互,因此不利于大型物体特征的跨帧全局交互。

我们使用 Mamba2 的方法增强了全局交互能力。首先,使用自旋转角度对前一帧的特征进行变换。如图 2 所示,给定变换后的历史 BEV 特征图和当前特征图(维度均为 256),我们沿第三维将它们连接起来。然后,使用卷积块将连接后的特征从 512 维压缩到 256 维。该卷积块由两个并行的子模块组成:一个 3×3 下采样卷积层,用于在降低维度的同时保留重要特征;以及一个逐点卷积层,用于降低维度并引入非线性以学习复杂模式。为了缓解内部协变量偏移,在每个卷积层之后应用批量归一化。两个子模块的输出被连接起来,并应用非线性激活函数,然后是线性层和层归一化。该过程可以写成如下公式:
在这里插入图片描述

接下来,我们离散地重新排列 Z 并通过 Mamba2 块对其进行处理。Mamba2 块最初设计用于自然语言处理和序列处理,但在应用于类似视觉的数据时面临着巨大的挑战。因此,设计合适的离散重新排列方法至关重要。我们基于实验结果并受到 Vmamba [21] 的启发,提出了一种四向重新排列方法。在消融研究中讨论了不同重新排列方法的影响。

创新性地提出了一种多方向的特征序列扫描机制,将特征图Z离散序列化后,再按向前左、向前上、反向左、反向上四个方向进行重组,如图3所示。需要注意的是,我们没有采用蛇形重组的方式,因为我们认为这样会导致相邻特征相互作用的不平衡,一些相邻特征可能靠得很近,而另一些则相距甚远。经过Query-Re-arrange之后,序列经过一个线性层,投影到适合mamba2 block的不同维度空间,新的序列随后被输入到Mamba2模型中,Mamba2模型输出增强的序列特征,这些特征与全局特征融合并相互作用,有助于提升对BEV空间的全局感知,并聚合跨框架特征。然后序列重新组合并恢复到原始顺序,如图 4 所示。我们计算四个张量的平均值,并将增强的融合 BEV 特征图添加到当前 BEV 特征图中,以 0.9 的 dropout 率作为跳过连接,以避免过度拟合并减少神经元的共同适应。

在这里插入图片描述

C. 基于 Mamba 的 DETR 头

如图 1 所示,我们重新设计了 DETR 头,将 Mamba2 架构与传统的 DETR 编码器相结合,并将其命名为基于 Mamba 的 DETR。首先,900 个对象查询经过预处理并在 Mamba2 模块内进行交互,其功能类似于自注意力机制。然后,Mamba 模块的输出将使用类似于传统 DeformableAttention 的可变形注意力机制进行处理。

六、结论

本文介绍了一种高效的 3D 检测模型 MambaBEV,我们认为这是第一个将 Mamba2 集成到基于摄像头的检测模型中的模型。我们设计了 TemporalMamba 模块,以有效地融合时间信息并增强全局感知。在 NuScenes 数据集上进行的大量实验证明了我们提出的方法的有效性和高效性,尤其是在提高大型物体检测精度方面。此外,我们采用端到端自动驾驶范式进一步评估了该模型的性能,并取得了良好的结果。这项研究凸显了状态空间模型在自动驾驶感知系统中的可行性和潜力,并为提高大型物体检测精度提供了一种解决方案。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值