更接近人类驾驶 | 全新LV融合赋予端到端驾驶人类理解能力,上车更进一步!

自动驾驶的端到端实现取得了显著进展。然而,自动驾驶车辆的广泛部署尚未实现,主要原因包括:1)多模态环境感知效率低:如何更有效地整合来自多模态传感器的数据;2)非人类般的场景理解:如何有效地定位和预测交通场景中的关键风险因素,就像一名有经验的驾驶员一样。为了克服这些挑战,在本文中,我们提出了M2DA。为了更好地融合多模态数据并实现不同模态之间的更高对齐度,我们提出了一种新颖的激光雷达-视觉融合模块(LVAFusion)。通过整合驾驶员的注意力,我们赋予了自动驾驶车辆类似于人类的场景理解能力,以精确识别复杂情景中的关键区域,并确保安全。

本文贡献

在多模态自动驾驶模型中,由于点云和图像信息的无效融合而引起的特征不对齐是应用的一大挑战。例如,错误解释或忽略特定关键数据可能导致障碍物的错误判断或不准确的位置估计。以前关于传感器融合的研究主要集中在驾驶场景的感知和预测方面。这包括2D和3D物体检测,以及运动预测。这些方法主要利用卷积神经网络在3D环境中学习和捕捉几何和语义信息。然而,这些方法要么假设局部性来在图像和激光雷达投影空间之间对几何特征进行对齐,要么简单地连接多传感器特征。这些融合技术可能无法有效地捕捉复杂多主体场景中的多模态特征之间的交互作用。

另一方面,交通环境的高度动态、随机和多样化特性对自动驾驶提出了严峻挑战。更具体地说,自动驾驶车辆应该处理许多不可预测的情况,例如违反交通信号的车辆或突然从盲点出现的行人。在这种复杂而危险的环境中,熟练的驾驶员能够迅速识别和预测交通危险。例如,他们可以在未标记的十字路口无意识地搜索来自所有方向的来车,以预防事故。因此,驾驶员注意力(DA)可以作为关键的风险指标。同时,自然驾驶和实验室模拟研究的实验一直显示DA在定位潜在冲突对象方面的有效性,最终提升了道路交通安全性。因此,准确预测驾驶员注视点的意义重大,对于端到端自动驾驶系统理解复杂交通场景至关重要。这种预测性洞察对于设计能够模仿人类般预期技能的系统至关重要,从而提高了自动驾驶车辆的安全性和可靠性。然而,迄今为止,关于将DA集成到端到端自动驾驶中的研究尚未被探索。

为了克服上述挑战,我们提出了一个新颖的M2DA框架用于自动驾驶,具有两个核心创新:高效的多模态环境感知和类人场景理解。总的来说,M2DA具有以下贡献:

  1. 为了避免多模态情景中关键对象的不对齐,我们提出了LVAFusion,一种新颖的多模态融合模块,利用具有先验信息的查询来集成图像和点云表示。LVAFusion突出显示两种传感器模态共同的关键特征,并捕捉特定情景中它们的上下文相互作用。
  2. 就我们所知,我们是第一个将驾驶员注意力融入到端到端自动驾驶中的工作,这有助于在复杂情景中高效地识别关键区域。DA预测的引入不仅为下游决策任务提供了更精细的感知特征以确保安全,而且将场景理解过程更接近人类认知,从而增加了可解释性。
  3. 我们在涉及CARLA中对抗性情景的复杂城市环境中对我们的方法进行了实验验证。M2DA在Town05 Long基准测试实现了最先进的驾驶性能。

相关工作回顾

2.1端到端自动驾驶

与通常由不同独立模块组成的传统流水线不同,近年来,开发无累积误差的端到端自动驾驶系统已成为一个活跃的研究课题,在基于CARLA的闭环评估中取得了令人印象深刻的驾驶性能,CARLA是一个3D驾驶模拟平台。NEAT采用神经注意力场来实现对交通场景逻辑结构的高效推理,特别是在空间和时间维度上。TCP提出了一种综合方法,将轨迹规划和端到端自动驾驶中的直接控制方法结合起来,在单目摄像头输入的城市驾驶场景中表现出优越性能。Interfuser是一个安全增强的自动驾驶框架,通过集成多模态传感器信号并生成可解释特征来解决与全面场景理解和安全性相关的挑战,以实现更好的约束动作。为了解决资源-任务分配不平衡的问题,ThinkTwice调整了编码器和解码器之间的容量分配,并采用两步预测(即粗粒度预测和细粒度细化)来预测未来位置。Uniad直接将感知、预测和规划等全栈驾驶任务集成到一个统一的网络中,有效地避免了传统模块化设计方法常见的累积误差或任务协调不足的问题。尽管近年来的研究取得了令人印象深刻的进展,但我们认为当前端到端自动驾驶仍然可以在两个方面继续改进:1)更有效的多模态环境感知,可以更好地集成来自多模态和多视角传感器的数据;2)更类人的场景理解,可以快速检测和预测复杂交通场景中的关键风险因素,就像一名有经验的驾驶员一样。

2.2 自动驾驶的传感器融合方法

由于不同模态的互补特性,多模态传感器融合已成为各种研究领域的首选方法。对于端到端自动驾驶来说,传感器融合意味着将来自不同传感器类型的异构数据集成到一起,以提高自动驾驶的感知信息准确性,为后续安全可靠的决策提供重要基础。最近的多模态端到端自动驾驶方法表明,将RGB图像与深度和语义数据进行集成可以提高驾驶性能。LAV采用PointPainting来融合多模态传感器,它将从RGB图像提取的语义类信息与激光雷达点云进行连接。ContFuse利用连续卷积来融合不同分辨率的图像和激光雷达特征图。TransFuser是CARLA的一个广泛使用的基准模型,采用多阶段CNN获取多分辨率特征,并使用自注意力独立处理图像和激光雷达表示,但无法学习不同模态之间的复杂相关性。相比之下,交叉注意力在处理多模态特征时表现出更多优势;因此,它在最近的一些工作(例如Uniad、ReasonNet和Interfuser)中被广泛使用。然而,这些方法将交叉注意力的可学习查询初始化为随机生成的参数,未能利用多模态特征中蕴含的先验知识。这可能导致同一关键对象在多个模态之间的不对齐,最终导致模型学习的收敛速度较慢且不够优化。为了解决这个问题,我们提出了一种新颖的多模态融合方法,使用交叉注意力来交互图像和激光雷达表示,预计可以实现不同模态之间更好的对齐。

2.3 驾驶员注意力预测

人类驾驶员的注意力为驾驶提供了重要的视觉线索,因此最近对于利用各种深度神经模型预测驾驶员注意力的兴趣日益增加。尽管在驾驶员注意力预测方面取得了如此多的研究进展,但仍然没有研究尝试将驾驶员注意力整合到端到端自动驾驶中,以从经验丰富的人类驾驶员那里获得出色的场景理解能力,这是本研究要解决的问题。

详解M2DA

M2DA~_模态

图1:我们提出了M2DA,一种融合了驾驶员注意力的多模态融合变压器,用于端到端自动驾驶。M2DA接受多视角图像和激光雷达点云作为输入。首先,我们使用一个DA预测模型来模拟驾驶员视觉注视的焦点,将其视为一个蒙版,用于调整原始图像的权重以增强图像数据。然后,我们使用基于ResNet的骨干网络来提取图像特征和激光雷达的BEV表示。我们利用全局平均池化与位置编码来对这些提取的表示进行编码。然后,它们被视为查询与点云和图像分别计算交叉注意力,输出被认为是最终融合的特征,然后被馈送到后续的变压器编码器。三种类型的查询,即路径点查询、感知和预测查询以及交通查询,被馈送到变压器解码器中,以获取用于下游任务的相应特征。最后,M2DA采用自回归路径点预测网络来预测未来路径点,并使用MLP来预测周围对象的感知地图和交通状态。

我们采用模仿学习来训练我们的模型,其目标是学习一个策略πθ,该策略在给定当前场景Π中的车辆状态时模仿专家行为。这包括多模态传感器输入I、车辆在全局坐标系中的位置p、车速v和导航信息n。M2DA需要输出未来的轨迹W,并使用控制模块将其转换为控制信号C,包括横向控制信号steer ∈ [−1, 1]和纵向控制信号brake ∈ [0, 1]、throttle ∈ [0, 1]。

M2DA~_激光雷达_02

3.1 驾驶员注意力预测

驾驶员注意力的预测可以为自动驾驶代理提供驾驶员的视觉注视,从而增强其理解交通场景的能力,就像一名经验丰富的人类驾驶员一样。M2DA中的DA预测模型采用了编码器-解码器架构。对于编码器,我们使用MobileNet-V2作为骨干网络,以便快速进行预测,因为其内存占用和FLOPs较小。我们使用自注意力机制来处理空间特征。然后,我们采用反向残差块来投影这些特征,并将它们馈送到一个带有128个隐藏通道和3×3内核大小的门控循环神经网络(GRU)进行序列预测。对于解码器,我们利用自注意力来处理GRU提取的特征。我们使用三个反向残差块来压缩通道维度,以获得更好的特征表示。此外,我们使用另一个自注意力来增强通道信息。最后,我们采用最近邻插值来将特征上采样到输入图像的大小。由于代理驾驶中将面临各种场景,如果DA模型没有很强的泛化能力,可能会导致注视点错误。为了解决这个问题,我们使用了四个数据集来训练我们的DA预测模型,同时采用域自适应批归一化(DABN)我们模型中的DABN可以表示为:

M2DA~_人工智能_03

3.2基于注意力的融合模块LVAFusion

本研究提出了一种新颖的多模态融合模块LVAFusion,用于整合来自多模态和多视角传感器的数据。首先,我们使用ResNet作为三个感知编码器的骨干网络,即图像编码器、注意力编码器和激光雷达编码器,以提取多视角图像特征、驾驶员注意力特征和点云特征。然后,将这些感知特征串联起来形成一个多模态特征。为了更好地捕获嵌入在特定模态中的局部语义信息以及在多个模态之间耦合的全局语义信息,我们为每个模态定义了本地传感器特征和全局传感器特征。通过使用这些特征作为查询,LVAFusion可以集中注意力于上下文中最相关的特征,并突出显示两种传感器模态共同的关键特征,与采用随机初始化查询的方法相比,显著提高了对它们上下文相互作用的解释。上述过程可以表示为:

M2DA~_模态_04

实验

M2DA 是基于开源的 CARLA 模拟器 0.9.10.1 版本实现的。我们将M2DA与Town05 Long基准测试中的最新方法进行了比较。由于CARLA交通管理器的随机性和传感器噪声的存在,评估结果表明存在一定程度的不确定性。因此,我们重复了每个评估实验三次,并报告了平均结果。对于Town05 Long基准测试(表1),我们的方法实现了最佳性能,DS为72.6,IS为0.80,这意味着M2DA能够很好地处理复杂场景并减少违规事件的发生。一些最新方法,例如MILE和DriveAdapter,获得了更高的RC值;然而,它们表现出更高的碰撞或交通违规事件的发生率。对于使用与M2DA相同传感器配置的Transfuser和Interfuser,我们的模型在所有指标上优于Transfuser。

表1:M2DA与Town05 Long基准测试中几种最新方法的比较。↑表示数值越高越好。C代表相机,L代表激光雷达。额外监督指的是除了自车的动作和状态之外,训练需要额外的标签。专家表示从特权代理中提取知识。Box指的是其他代理的边界框。DriveAdapter的评估只运行一次,用上标1表示。

M2DA~_自动驾驶_05

有研究证明收集到的专家数据的规模对驾驶性能有显著影响。尽管M2DA只是在一个包含200K帧的数据集上进行了训练,但在Town05基准测试上,其表现优于使用更大训练数据集的现有最先进模型,例如Interfuser(3M)、MILE(2.9M)和Thinktwice(2M),这意味着M2DA能够在数据量减少的情况下获得更优秀的性能。

可视化

我们在M2DA的评估结果中可视化了一些代表性案例(图2)。第一行显示了一个没有明显风险的正常交通场景,M2DA将其视觉注意力定位在图像中央的道路消失点上。在第二行中,一个正在奔跑的行人即将横穿马路。在这种突然的情况下,就像一名经验丰富的人类驾驶员一样,M2DA迅速而准确地捕捉到了当前交通场景中的危险对象,即行人,并做出相应的驾驶决策以避免潜在的碰撞。在第三行描述的更危险的情况中,M2DA也迅速将注意力分配给了十字路口的车辆。与此同时,考虑到车辆的预测未来轨迹,M2DA感知到了碰撞风险很高,并立即启动紧急制动机动以防止事故发生。

M2DA~_激光雷达_06

图2:每一行代表M2DA遇到的一个代表性交通场景。左侧的三列分别显示左侧视图、前方视图和右侧视图图像。第四列显示了驾驶员注意力的预测结果。最后一列表示周围车辆的感知状态。黄色框表示自车。白色、浅灰色和灰色框分别表示周围车辆当前位置、下一个时间间隔的预测位置和下两个时间间隔的预测位置。绿色点和红色点分别表示自车的安全未来轨迹和可能发生碰撞的不安全区域。

M2DA~_模态_07

图3

上图在M2DA的评估结果中可视化了行人横穿的更多细节情况(图3)。第一行显示了一个没有明显风险的正常交通场景,M2DA将其视觉注意力定位在图像中央的道路消失点上。在第二行中,一个正在奔跑的行人即将横穿马路。在这种突然的情况下,就像一名经验丰富的人类驾驶员一样,M2DA迅速而准确地捕捉到了当前交通场景中的危险对象,即行人,并做出相应的驾驶决策以避免潜在的碰撞。在行人横穿马路后,M2DA重新聚焦于前方的道路,从而增强了决策过程的可解释性。

消融研究

我们现在对M2DA的几个设计选择进行一系列消融研究,针对Town05 Long基准测试进行分析。

首先,我们通过利用不同的传感器输入组合,研究不同传感器模态的影响。结果如表2所示。1C仅利用前置RGB图像作为输入,这使得在自车侧面检测障碍物变得具有挑战性。因此,它表现出与车辆的碰撞率(Veh)最高以及最长超时时间(TO),最终导致最差的驾驶性能。当左右摄像头被纳入时,3C可以更全面地观察交通状况,这不仅降低了车辆碰撞的风险,还减轻了超时情况。然而,仅以摄像头图像作为输入时,3C仍然显示出较高的闯红灯率(Red),表明代理程序难以有效捕捉交通灯信息。为了解决这个问题,我们引入了驾驶员注意力作为额外的输入,并让模型从经验丰富的人类驾驶员那里学习,以在接近信号化十字路口时提前将视觉注意力分配到交通灯上。结果,3C1A显示出较低的闯红灯率,导致IS和DS的增加。进一步引入激光雷达点云进一步提高了IS,导致DS最高。 

表2:不同传感器输入的消融研究。↑表示数值越高越好,而↓表示数值越低越好。1C和3C分别表示使用一个摄像头(前置)和三个摄像头(左侧、前置、右侧)作为输入。3C1A表示三个摄像头结合驾驶员注意力特征。3C1A1L进一步引入了一个激光雷达。

M2DA~_模态_08

M2DA体系结构变化的影响如表3所示。当我们移除融合和DA模块时,与车辆的碰撞率(Veh)最高。在添加DA模块后,模型可以更好地捕捉交通灯信息,有效降低了Veh和Red。值得注意的是,添加DA模块后,方差增加,这可以归因于人类驾驶员视觉注意力的主观因素引起的不确定性。引入LVAFusion后,驾驶分数显著提高,表明所提出的LVAFusion有效处理了多模态信息,并帮助代理程序做出良好的驾驶决策。如预期的那样,引入LVAFusion和DA模块后,驾驶性能最佳。

表3:M2DA不同组件的消融研究。↑表示数值越高越好,而↓表示数值越低越好。✓表示使用该模块。

M2DA~_激光雷达_09

结论

在这项工作中,我们提出了M2DA,一个专注于高效的多模态环境感知和类人场景理解的端到端自动驾驶框架。首先,我们提出了一个新颖的基于激光雷达-视觉-注意力融合(LVAFusion)的模块,用于更好地融合多模态数据并实现不同模态之间更高的对齐。此外,M2DA通过将来自经验驾驶员的视觉注意力信息纳入到自主车辆中,赋予了自动驾驶车辆类似人类的场景理解能力,以识别关键对象。经过验证,M2DA在两个竞争性的闭环自动驾驶基准测试中取得了SOTA性能。