DRAMA:首个基于Mamba的端到端运动规划器

DRAMA:首个基于Mamba的端到端运动规划器

运动规划是一项具有挑战性的任务,在高度动态和复杂的环境中生成安全可行的轨迹,形成自动驾驶汽车的核心能力。在本文中,我们提出了DRAMA,这是第一个基于Mamba的自动驾驶端到端运动规划器。DRAMA融合了相机、特征空间中的LiDAR鸟瞰图图像以及自我状态信息,以生成一系列未来的自我轨迹。与传统的基于变换器的方法不同,DRAMA能够实现计算强度较低的注意力复杂度,从而显示出处理日益复杂的场景的潜力。DRAMA利用我们的Mamba融合模块,高效地融合了相机和激光雷达的功能。

附赠自动驾驶最全的学习资料和量产经验:链接

此外,我们引入了一个Mamba Transformer解码器,可以提高整体规划性能。该模块普遍适用于任何基于Transformer的模型,特别是对于具有长序列输入的任务。我们还引入了一种新的特征状态丢弃,在不增加训练和推理时间的情况下提高了规划器的鲁棒性。大量的实验结果表明,与基线Transfuser相比,DRAMA在NAVSIM数据集上实现了更高的精度,参数少,计算成本低。

image

总结来说,本文的主要贡献如下:

  1. 我们介绍了一种名为DRAMA的Mamba嵌入式编码器-解码器架构,其中包括一个编码器,该编码器通过Mamba Fusion模块有效地融合了相机和LiDAR BEV图像的特征,解码器通过Mamba Transformer解码器生成确定性轨迹,该解码器普遍适用于任何基于Transformer的模型。

  2. 我们在DRAMA中引入了多尺度卷积和特征状态丢弃模块,并采用了差异化的丢弃策略。这些模块通过在多个尺度上提取场景信息并减轻噪声传感器输入和缺失自我状态的影响,提高了模型的有效性和鲁棒性。

  3. 使用NAVSIM规划基准对提出的模块和总体架构进行了评估。实验结果表明,与基线相比,我们的模型在使用较少的模型参数和较低的训练成本的情况下实现了显著的性能提升。

相关工作回顾

Motion Planning for Autonomous Driving

自动驾驶的运动规划一直是机器人领域的一个长期研究课题。从传统的角度来看,运动规划是行为规划或决策的下游任务,它负责生成可驾驶和舒适的轨迹,保证安全。传统的运动规划通常依赖于几何和优化,可大致分为基于图、基于采样和基于优化的方法。基于图的方法,如A*和Hybrid A*,在离散化车辆配置空间后搜索最小成本路径。基于采样的方法在状态或动作空间内创建轨迹样本,以发现可行的路径。相比之下,基于优化的方法采用EM算法和凸优化等技术来确定满足指定约束的最佳轨迹。这些方法通常涉及大量的手动设计和优化,并且通常在动态或变化的环境中具有通用性。

随着专门用于运动规划的公共驾驶数据集和基准的发布,基于学习的轨迹规划得到了显著加速。目前,nuPlan是运动规划中最大的带注释规划数据集和基准。基于nuPlan和OpenScene数据集,最近开发了一个名为NAVSIM的数据集,以解决开环和闭环评估指标之间的不一致问题,并作为这些评估范式之间的中间地带。

基于这些开源数据集,[7]分析了数据驱动的运动规划方法中的误解,并提出了一种简单而高效的规划器,该规划器在nuPlan排行榜上排名第一。然而该规划器针对nuPlan指标进行了高度优化,当转移到其他场景时,其性能会下降。这些现有的基于学习的方法往往过度强调度量性能,往往以牺牲计算效率为代价。由于复杂的架构设计或用于轨迹评分和细化的在线模拟,其中许多方法由于无法实现的计算负担而变得枯燥乏味。为了提高计算强度和性能,我们提出了DRAMA,这是一种Mamba嵌入式编解码器流水线,旨在实现高效和卓越的规划性能。

State Space Models

为了减轻状态空间模型(SSM)在建模长期依赖关系时的大量计算和内存需求,[10]提出了结构化状态空间序列模型(S4),该模型将SSM中的A矩阵修改为具有低秩校正的条件矩阵。这种增强的模型Mamba在图像处理、语言处理和其他领域显示出巨大的应用潜力。[6] 从理论上证明了SSM与半可分矩阵的等价性。此外,引入了状态空间二元性(SSD)来增强原始的Mamba,该设计将多头注意力(MHA)融入SSM以优化框架,从而使改进版本(Mamba-2)表现出更大的稳定性和更高的性能。受到Mamba家族先前成功的启发,我们将最新的架构Mamba-2应用于端到端的运动规划。据我们所知,这是Mamba-2在自动驾驶领域的首次应用。为清楚和简洁起见,除非另有说明,否则所有后续提及曼巴的内容均适用于Mamba-2。

DRAMA方法详解

我们介绍了基于Mamba的端到端运动规划框架DRAMA,该框架使用卷积神经网络(CNN)和Mamba对相机和LiDAR BEV图像的特征进行编码和融合。解码器采用我们提出的Mamba Transformer解码器层对最终轨迹进行解码。在接下来的部分中,我们将详细探讨我们设计的四个模块:Mamba融合块、Mamba Transformer解码器层、多尺度卷积和特征状态dropout。

Mamba Fusion Block and Mamba-Transformer

Mamba Preliminaries:从连续系统导出的结构化状态空间序列模型(S4)利用1-D输入序列或函数x(t)和中间隐藏状态h(t)来产生最终输出y(t)。中间隐藏状态h(t)和输入x(t)用于通过投影矩阵A、B和C计算y(t)。

image

该系统应用可学习步长和零阶保持将连续系统转换为离散系统。因此,方程式(1)可以重新表述如下:

image

通过数学归纳,方程式(2)的最终输出可以改写如下:

image

矩阵M定义如下:

image

如方程(4)所述,下三角SSM变换矩阵M也满足N-顺序半可分(SSS)表示的定义。因此,SSM和SSS表示是等效的。

因此,SSS的结构化矩阵乘法可以有效地用于涉及SSM的计算。为了实现这种方法,分别使用结构化掩蔽注意力(SMA)方形模式算法和SMA线性模式算法将参数矩阵M分解为对角块和低秩块。此外,采用多头注意力(MHA)来提高模型性能。

曼巴融合:为了捕捉不同模态的多尺度背景,之前的基线在Transformer中实现了自我关注层,以融合和利用激光雷达和相机的特征。首先,对两种模态的特征进行转换和连接,生成组合特征I。然后,I将三个不同的投影矩阵��、��和��相乘,得到Q、K和V。融合模块的最终输出可以通过以下方式计算:

image

计算复杂度的总体训练由以下公式给出:

image

我们建议使用Mamba作为特征融合的自我关注的替代方案,因为它具有高效的矩阵计算能力。我们坚持实施融合方法,如图2所示。与[4]不同,我们使用Mamba-2而不是Transformer来处理融合的特征。由于传统变压器自关注中没有复杂的计算,Mamba的计算成本大大降低。假设head维度P等于状态维度D,即P=D,则训练成本由下式给出:

image

image

在我们的曼巴融合模块中,我们设置了T E320和P E16,理论上与自我关注相比,在融合过程中训练成本降低了约20倍。

Mamba Transformer解码器:如图(3)所示,我们将Mamba和Transformer架构相结合,开发了新颖的Mamba Transformers(MT)解码器。最初,可学习的查询被传递到机器翻译的Mamba组件中,该组件的功能类似于self-att。由于与Mamba的交叉注意力仍在探索中,我们采用Transformer交叉注意力机制来处理来自Mamba的查询以及来自FSD模块的键和值。

image

Multi-scale Convolution

image

为了捕获多尺度图像特征,我们采用了多卷积设计,如图(4)所示,其中图像通过三个不同核大小的卷积层进行处理,分别为-5、7和9。这些卷积层的输出被组合在一起,并由多层感知器(MLP)层进一步编码,以增强模型的感知能力。

Feature State Dropout

由于硬件限制和机载传感器中的噪声,对周围环境的观察和感知(例如位置或速度)可能不准确,可能无法完全反映真实情况。此外,当导航模块的驾驶命令缺失时,或者在复杂的交通条件下导航时,即使在没有明确指导的情况下,模型也必须深入理解和推理场景和周围的代理,这一点至关重要。先前的研究表明,屏蔽某些图像和车辆状态特征可以提高自我监督任务和运动规划的整体性能。为了解决这些问题并基于这些见解,我们从两种模态和自我状态实现了图像特征融合的特征状态丢弃,如图5所示。最初,要编码的特征被添加了一个可学习的位置嵌入,然后是差异化的dropout来掩盖一些特征。

image

我们在DRAMA中采用了一种差异化的辍学策略,该策略对融合和自我状态特征应用了不同的辍学率。为融合特征分配相对较低的丢失率,以保持其完整性。该措施旨在避免融合感知信息的过度丢失,从而降低整体性能。

实验结果

定量结果

如表1所示,根据Transfuser(T)基线对拟议模块的评估显示,各种指标都有显著改善。整合多尺度卷积(MSC)可以提高PDM得分,从0.835增加到0.843,突出了其在捕获多尺度特征以提高整体模型性能方面的有效性。曼巴融合(MF)的加入进一步将PDM评分提高到0.848,自我进步(EP)从0.782显著提高到0.798,表明融合方式优越。特征状态丢失(FSD)显示了EP的最高单个模块增强,达到0.802,PDM得分为0.848,证明了其在减轻传感器输入不良方面的作用。此外,Mamba Transformer(MT)模块的PDM得分为0.844,碰撞时间(TTC)有了显著改善,突显了其强大的自我关注机制。在没有MSC的DRAMA中,这些模块的组合,即T+MF+FSD+MT,导致PDM得分为0.853,在所有指标上都有持续的改进,整个DRAMA模型达到了最高的PDM得分0.855,证实了综合方法的有效性。

image

表2显示了不同特征状态丢失率对模型性能的影响,表明改变状态和融合特征的丢失率可以提高模型的鲁棒性和准确性。基线Transfuser(T)得分为0.835。引入融合丢失率为0.1的FSD将得分提高到0.842,状态丢失率为0.5的FSD得分更高,为0.844,这表明该模型受益于处理缺失的状态特征。状态丢失率为0.5和融合丢失率为0.1的组合达到了最高得分0.848,表明这两种特征类型之间的平衡丢失率优化了模型性能。

image

表3全面比较了各种方法的培训和验证性能,强调了拟议模块的效率。基线Transfuser(T)的总参数大小为56 MB,训练和验证速度分别为每秒4.61次迭代(it/s)和9.73次迭代/秒。引入多尺度卷积(MSC)模块将训练速度略微降低到3.77it/s,同时保持类似的验证速度,这表明在增强的特征提取和计算成本之间进行了权衡。相反,Mamba Fusion(MF)模块将总参数大小显著减小到49.9 MB,并将训练速度提高到4.92 it/s,验证速度提高到9.94 it/s,展示了其在模态融合方面的卓越效率。

image

特征状态dropout(FSD)的集成保持了与基线相当的速度,在不增加计算开销的情况下证明了其效率。这一发现突显了FSD模块的通用性和轻质性,可以有效地将其整合到各种型号中以提高其性能。

Mamba Transformer(MT)模块在性能和速度方面实现了平衡的提高,尽管它将训练速度略微降低到4.51it/s。这是由于我们的输入长度T31小于状态维度D128,从而将训练成本从Ω(�2�)增加到Ω(��2)。没有MSC的DRAMA组合架构通过将总参数减少到50.4MB,训练和验证速度分别为4.84it/s和9.91it/s,进一步提高了效率。最后,包含所有模块的完整DRAMA模型保持了50.6 MB的参数大小,但训练速度略有下降,降至3.86 it/s。尽管如此,它还是获得了最高的PDM分数,验证了集成方法的整体有效性和效率。

定性结果

我们展示了图6所示的8个代表性场景,其中我们的DRAMA模型展示了安全准确的端到端规划结果。在子图(a)和(e)中,我们的规划师准确地发出命令,保持静止,为过街的行人让路,而不考虑是否存在明确的交通灯控制。在子图(a)中,行人在没有红绿灯的弯道过马路,而在子图中(e),行人在有红绿灯和人行横道的情况下过马路。这些场景表明,我们的规划师能够识别交通信号灯和潜在危险,做出安全的规划决策。在子图(b)和(c)中,我们的规划师根据前方车辆的低速发出变道命令。这表明我们的规划师能够生成快速复杂的规划操作,以提高驾驶效率。子图(d)和(f)展示了我们的规划师在低速场景中的熟练程度,特别是在进出停车位方面。这些例子突出了规划师的精确控制和决策能力,确保了平稳高效的停车操作。最后,子图(g)和(h)展示了我们的模型在执行右转和左转时的规划能力。这些例子突出了规划者在精确和安全地处理各种交通场景方面的适应性,展示了其对复杂驾驶操作的全面理解。

image

讨论和未来工作

由于NAVSIM排行榜的临时关闭和比较解决方案的可用性有限,我们采用了公共测试数据集来评估基线和我们提出的方法。基线在NAVSIM排行榜上的PDM得分为0.8483;然而,当在公共数据集上进行测试时,它下降到0.8347。我们表现最佳的方法获得了0.8548的PDM得分,这在公共测试数据集上的基线中令人惊讶。所提出的多尺度卷积有助于DRAMA的性能,尽管不影响验证速度,但牺牲了训练效率。

鉴于所提出的多尺度卷积训练速度的降低,我们将探索其他强大而高效的视觉编码器。此外,我们还将考虑在现实场景中测试我们提出的计划器。

结论

这项工作提出了一种名为DRAMA的基于Mamba的端到端运动规划器,这是Mamba在自动驾驶运动规划方面的第一项研究。我们提出的Mamba融合和Mamba Transformer解码器有效地提高了整体规划性能,Mamba Transformers为传统Transformer解码器提供了一种可行的替代方案,特别是在处理长序列时。此外,我们引入的特征状态丢弃提高了规划器的鲁棒性,可以集成到其他基于注意力的模型中,在不增加训练或推理时间的情况下提高性能。我们使用公共规划数据集NAVSIM对DRAMA进行了评估,结果表明,我们的方法在参数少、计算成本低的情况下明显优于基线Transfer。

参考

[1] DRAMA: An Efficient End-to-end Motion Planner for Autonomous Driving with Mamba

  • 12
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值