【论文解读】End-to-End Autonomous Driving through V2X Cooperation

摘要

通过V2X通信,协同利用自主车辆和基础设施传感器数据已成为先进自动驾驶的一种有前景的方法。然而,目前的研究主要集中在改进单个模块,而不是通过端到端的学习来优化最终的规划性能,导致数据潜力未得到充分利用。在本文中,我们介绍了UniV2X,这是一种开创性的协作式自动驾驶框架,可将跨不同视图的所有关键驾驶模块无缝集成到统一网络中。本文提出了一种稀疏密集混合数据传输和融合机制,用于车辆与基础设施的有效合作,具有以下三个优势:1)有效地同时增强智能体感知、在线地图和占用预测,最终提高规划性能。2)传输友好,适用于实际和有限的通信条件。3)数据融合的可靠性和混合数据的可解释性。我们在具有挑战性的DAIR-V2X(现实世界的协作驾驶数据集)上实现了UniV2X,并重现了几种基准方法。实验结果证明了UniV2X在显著提高规划性能以及所有中间输出性能方面的有效性。代码在https://github.com/AIR-THU/UniV2X。

引言

一些研究调查了外部传感器数据在不同任务中的有效性,如检测[18,35,44,47,61]、跟踪[63]、分割[51]、定位[10,20]和预测[36,40,63]。然而,现有的解决方案主要强调单个任务的优化,而忽略了整体规划的增强。由于单个任务目标与最终计划目标之间的不一致,这给综合数据开发带来了挑战。因此,利用车载和外部传感器数据直接优化最终规划输出的端到端学习探索变得非常必要。本文主要研究以图像为输入数据的车辆-基础设施协同自动驾驶(VICAD)。我们也考虑在V2V场景中验证UniV2X。
VICAD问题可以表述为在受限通信带宽下具有多视图传感器输入的以规划为中心的优化问题。与单车自动驾驶相比,通过端到端学习解决VICAD带来了额外的挑战。

  • 首先,传输的基础设施数据必须提高自动驾驶中的关键模块和最终规划性能。这些关键模块包括动态障碍物感知、在线地图和基于网格占用的一般障碍物检测,为确保自动驾驶的安全性提供了明确的场景表示。
  • 其次,受实时需求和有限通信条件的驱动,最小化传输成本对于减少通信带宽消耗和减少延迟至关重要。
  • 第三,传输的数据必须是可解释的,允许车辆验证和明智地使用数据,以防止潜在的安全问题,如通信攻击和数据损坏。

为了应对这些挑战,需要设计良好的数据传输和跨视图数据融合解决方案。
下面是一些通过端到端学习来解决合作驾驶问题的简单尝试。CSA[45]直接将从其他车辆接收到的原始图像共享并馈送到基本神经网络中进行控制输出。CooperNaut[9]在车辆之间共享从点云中获得的特征,并将其输入到一个基本的CNN网络中作为最终输出。然而,这些现有的解决方案依赖于一种简单的方法,利用简单的网络来优化计划和控制输出实现端到端自动驾驶。这种范式缺乏显式模块,损害了安全性和可解释性。特别是在复杂的城市环境中,这种方法在确保驾驶系统的可靠性方面存在不足。

为此,我们推出了UniV2X,这是一种创新的协作式自动驾驶框架,可将关键模块和交叉视图无缝集成到统一网络中,如图2所示。除了最终的规划任务,我们还解决了自动驾驶中场景表示的三个常见任务:

  • 1)智能体感知,包括动态障碍物感知的3D物体检测、跟踪和运动预测,
  • 2)在线地图的道路元素(特别是车道)检测,
  • 3)一般障碍物感知的网格占用预测。

受UniAD[16]的启发,我们采用基于查询的架构来建立跨节点的连接,包括基础设施和自我-车辆系统内部模块,以及跨视图交互。在传输和跨视图交互中,我们将智能体感知和道路元素检测分类为实例级表示,将占位预测分类为场景级表示。我们传输了跨视图agent感知交互和在线地图交互的agent查询和车道查询。我们传输被占用概率图,识别其在场景级占用的密集性,用于跨视图占用交互。这种传输称为稀疏密集混合传输,分别在空间和特征维度上平衡稀疏性和密度。跨视图数据融合,如agent融合,主要涉及时空同步、跨视图数据匹配与融合、数据自适应规划和中间输出。由此产生的轻量级方法增强了动态对象感知、在线地图和占用模块,从而提高了规划性能。此外,查询和占用概率图的可解释性分别在实例和场景级别加强了VICAD系统的可靠性,增强了其传输完整性和融合安全性。
贡献:

  • 我们率先推出了首个明确的端到端框架,将重要模块统一到一个模型中,推动了协作式自动驾驶的发展。值得注意的是,UniV2X是VICAD的第一个端到端框架。
  • 我们设计了一种稀疏密集混合传输和跨视图数据交互方法,符合端到端协作自动驾驶的有效性、传输友好性和可靠性先决条件。
  • 我们复制了几种合作方法作为基准,以及在DAIR-V2X[60]和V2X-Sim[25]上实例化UniV2X框架。实验结果强调了我们的端到端范式的有效性。

【端到端自动驾驶】
端到端自动驾驶涉及以可微分和可学习的方式直接从原始数据中提取规划输出。开创性的工作,如[2],使用cnn从点云数据生成控制输出。其他的,如[37,65],利用点云和高清地图作为输入。同时,像[38]这样的工作利用多模态传感器数据作为输入来生成用于可视化的物体密度图。为了获得驾驶技能,[7,34,50]采用模仿学习(IL),以开环的方式从专家演示中学习。相比之下,[19,21,30]利用强化学习(RL)通过与环境以闭环方式交互来迭代学习驾驶技能。在相关工作中,UniAD[16]率先使用查询来连接感知、映射、预测和规划等所有基本任务。通过将这些任务统一到一个网络中并采用模仿学习,UniAD在nuScenes数据集上取得了显著的性能[3]。然而,UniAD只考虑单个车辆的传感器数据,而我们的方法UniV2X利用了来自不同角度的传感器数据。

方法

在这里插入图片描述
图2:通过V2X合作实现统一自动驾驶的流水线(UniV2X)。UniV2X旨在跨不同视角连接并共同优化所有重要模块,以增强规划性能。交叉视图数据交互支持自动驾驶的关键组件,如代理感知、在线地图和占用预测。额外的流量预测使传输占用概率图的传输成本最小化。跨视图数据融合包括时间与空间同步、跨视图数据匹配与融合和数据自适应。

VICAD问题是面向规划的,旨在通过V2X通信,利用基础设施传感器数据和自车传感器数据来提高规划性能。本文主要研究图像作为输入。VICAD的输入由两部分组成:
(a)车辆图像{Iv (t)|t≤tv}和当前车辆时间戳tv处的相对姿态Mv (tv)。
(b)基础设施图像{Ii(t)|t≤ti}和当前基础设施的相对位姿Mi(ti)

注意,在实际场景中,由于通信延迟的原因,时间戳ti应该早于时间戳tv。VICAD的输出是预测自我车辆在时间步长t = tv + 1,···,tpred下的未来坐标。

显式场景表示。建立在明确的场景表示上的规划和决策有助于可解释和可信赖的自动驾驶。以下是自动驾驶中几个常见且重要的模块。

  • 智能体感知用于准确感知动态障碍物(3D物体检测),关联障碍物(跟踪),并最终预测其未来行为(运动预测)。准确的感知和预测有助于避免碰撞,确保驾驶安全。
  • 在线地图的目的是提取道路要素,实时构建地图,用于定位和决策,更符合交通规则,如特斯拉方式[41]。它被认为是高清(高精度)地图的有效替代方案,特别是对于低成本的解决方案。
  • 基于网格的占用预测用于一般障碍物检测,通过预测每个网格的占用情况[43,48]。这被认为是解决自动驾驶长尾挑战的有效方法。

传输数据。它涉及V2X合作的三种主要类型:

  • 原始数据,如原始图像。这种数据类型维护所有有价值的信息,但需要很大的传输成本。
  • 感知输出,如检测结果。虽然通信友好,但这些数据不适合无缝集成到端到端框架中。
  • 中间数据,如鸟瞰(BEV)特征和查询[6,12]。与上述两种数据相比,该数据在保留有价值的信息和减少冗余传输之间取得了平衡。

为了确保有效、传输友好和可靠的传输数据,我们提出了一种稀疏-密集混合传输机制。查询作为轻量级实例级功能,可以增强代理感知和在线映射,因为动态障碍物和车道可以被视为实例级表示。占用概率图,通道稀疏场景级特征,提高占用预测。与不太可解释和高成本的BEV特征相比,占用概率图提供了像素级的可解释性和更低的传输成本。

Sparse-Dense Hybrid Data Generation

基础设施系统由:Backbone、TrackFormer、MapFormer、OccFormer和OccFlowNet组成。

  • 采用BEVFormer[27]作为backbone,结合空间交叉注意和时间自注意,提取图像特征,并将其转化为大小为(200,200,256)的鸟瞰(BEV)特征Binf。
  • TrackFormer的最终过滤输出包含N个有效的代理查询{Qinf a},特征维为256,以及它们对应的分配的跟踪id和参考点。
  • MapFormer基于Panoptic SegFormer,我们主要关注车道线和人行横道的元素。在传输过程中,我们使用分类解码器生成的box过滤掉低得分的查询,并只传输N个有效的车道查询{Qinf l},特征维数为256,以及相应的参考点。
  • UniAD中的原始OccFormer[16]仅考虑与代理查询相关的实例级占用,预测多个步骤。然而,在一般的障碍物检测中,占用是物体感知的补充因素,传输多个概率图会产生很大的传输成本。为了解决这些挑战,我们保留了通过像素级关注获得的密集特征,大小为(200,200,256)。
  • 首先,采用多层感知(Multi-layer Perception, MLP)将密集特征转换为大小为(200,200)的BEV占用概率图,记为pinf。随后,采用feature flow prediction方法[62,63],通过线性运算 Pf future (t) = P0 + t∗P1表示t -step map,(1)其中P0表示当前的BEV概率图,P1表示对应的BEV概率流。传输T步占用概率图需要T*200*200个浮点数,而UniV2X只需要2*200*200个浮点数。

【Advantages】Agent查询和lane查询作为实例级特性,在空间维度上表现出显著的稀疏性。相反,BEV占用概率图在空间维度上是密集的,但在特征维度上是单一的。概率流反映了它们各自对应的稀疏密集特征,即概率图。因此,稀疏-密集混合数据传输的传输成本最小,并且通信友好。表2也给出了传输成本的比较。在这里插入图片描述

Cross-View Data Fusion (Agent Fusion)

在ego-vehicle系统中,首先从车载传感器捕获的图像中提取BEV特征。我们还采用TrackFormer、MapFormer和OccFormer生成相应的agent查询{Qveh A}、lane查询{Qveh L}和被占用概率图P veh。这些模块的网络与基础设施系统的网络保持一致。在本节中,我们将描述如何实现跨视图代理融合。跨视点agent融合主要包括补偿时延的时间同步、统一跨视点坐标的空间同步、数据匹配与融合、规划与中间输出的数据自适应。有些模块在实现车道融合和占用融合方面类似

Temporal Synchronization with Flow Prediction

无线通信的传输时延,如ti早于tv,在复杂交通系统中具有重要意义,特别是对于繁忙的交叉口场景。由于动态对象的运动,融合来自不同来源的数据时存在时间错位。为了解决这个问题,我们将特征预测合并到基础设施代理查询中以减轻延迟,遵循特征流预测 [62, 63]。具体来说,我们将前一帧中关联的代理查询 Qinf A 和查询输入到 QueryFlowNet 中,QueryFlowNet 是一种三层多层感知器 (MLP),以生成代理查询流 Qinf AF 低。代理查询流的维度与代理查询的维度相匹配。
在这里插入图片描述
值得注意的是,Flow Prediction 模块的 QueryFlowNet 在 UniV2X 中以端到端的方式进行训练。我们采用 [62, 63] 之后的自我监督学习。

Spatial Synchronization with Rotation-Aware Query Transformation

我们最初使用基础设施系统和自我车辆系统之间的相对姿势 [R, T ] 将基础设施代理查询 Qinf A 的参考点从基础设施转换为自我车辆。在这里,相对位姿是从两个系统的全局相对位姿生成的,R 表示旋转矩阵,T 表示平移。然而,每个对象本质上拥有关于其位置、大小和旋转的 3D 信息。在表示 3D 对象的查询的上下文中,位置由参考点显式表示,而旋转隐式编码在查询的特征中,如图 3 所示。在这里插入图片描述物体的方向被显式地编码在BEV特征图(a)和边界框(b)中,而方向被隐式地嵌入在查询特征©中,这给空间同步中的跨视图旋转对齐带来了挑战

为了解决这个问题,我们提出了一种称为旋转感知查询转换的解决方案来实现空间同步。这包括将基础设施查询及其相对姿态的旋转R输入到三层MLP中,以更新具有旋转感知的特征,从而实现显式的空间同步在这里插入图片描述其中旋转矩阵R被重塑成9维。最后,将基础设施代理查询数据转换为自我-车辆坐标系。

Cross-View Query Matching and Fusion

在这个阶段,跨视图代理查询在时间和空间上是同步的。为了匹配来自不同方面的相应查询,我们计算其参考点的欧几里得距离,并采用匈牙利方法[22]。将匹配的查询对Qinf A和Qveh A馈送到一个三层MLP中生成协同查询QA,用于更新自我-车辆代理查询Qveh A。对于来自基础设施的不匹配查询,它们被用于添加到ego-vehicle查询中。最后,我们分配跟踪id并过滤掉低检测置信度的交叉视图融合查询,从而得到最终的代理查询。

Ego Identification and Removing

该模块用于消除自车区域的误检问题。从基础设施的角度来看,自我车辆既可以在智能体感知中被视为一个明显的障碍,也可以在占用预测中被视为被占用区域的一部分。在交叉视角数据融合之后,有可能在自我车辆所在的区域内生成障碍查询,从而将自我车辆区域标记为占用。这种情况会严重扰乱决策过程,并最终影响决策绩效。为了缓解这个问题,我们将ego-vehicle区域定义为矩形,过滤该区域内的查询,并将该区域指定为未占用区域。这种配置被证明在提高规划性能方面是有效的,特别是在L2错误评估方面。然而,由于定位和校准不准确导致的基础设施和自我车辆之间的相对位置误差,这种简单的解决方案可能无法始终保持最佳性能[13,55]。为了实现协作式自动驾驶,需要进一步的探索和完善。

Decoder Input Augmentation for Intermediate Output.

通过最终融合的智能体查询与自车TrackFormer中编码器输出的交叉关注,我们可以获得智能体的中间输出,如3D检测输出,以增强UniV2X的可解释性。然而,编码器的输出都是由自我车辆传感器数据信息生成的,这使得来自基础设施的查询无法产生相应的代理输出。为了解决这个问题,我们使用同步的基础设施查询来增强自驾车BEV特征,编码器的输出如下:在这里插入图片描述

Cross-View Data Fusion (Lane Fusion)

LaneFusion模块用于融合不同侧的车道查询。在这种情况下,我们忽略了车道融合中的时间同步,因为道路车道元素不受延迟影响并保持稳定性。与AgentFusion类似,LaneFusion通过旋转感知查询转换集成了空间同步。该过程将基础设施车道查询(包括参考点和查询特征)转换为自我-车辆坐标系。然后,我们将同步的基础设施车道查询与自我车辆车道查询进行匹配和融合,就像在AgentFusion中完成的那样。为了加速训练,我们还选择直接将同步查询与自我车辆车道查询连接起来。同步查询还用于解码器输入增强。

Cross-View Data Fusion (Occupancy Fusion)

我们首先通过线性操作生成多步基础设施占用概率图,并将其与自我车辆多步占用预测对齐。利用密集概率图中旋转的显式表示,我们直接使用相对姿态将基础设施占用概率图转换为自我-车辆系统。随后,我们使用简单的max运算将同步占用概率图与自我-车辆占用概率图融合,生成融合概率图P。概率超过一定阈值的网格被标记为已占用。

Planning Output

基于融合代理查询、车道查询和占用特征,我们重用了UniAD[16]中的实现来生成最终的规划输出。使用MotionFormer生成一组具有预测视界为tpred的Na运动查询。这些查询是通过捕获代理、通道和目标之间的交互而创建的。值得注意的是,这些代理查询包含了自我车辆查询,从而使MotionFormer能够生成具有多模式意图的自我车辆查询。利用BEV占用概率图P创建二进制占用图O。在规划阶段,将从MotionFormer获得的ego-vehicle查询与命令嵌入相结合,形成“计划查询”。这些命令包括左转、右转和向前移动。该计划查询连同BEV特性一起被输入到解码器中,以产生未来的路点。最终的规划轨迹是通过最小化成本函数得到的,确保避免与已占用的网格碰撞。

Training

在我们的工作中,我们用模仿学习来训练UniV2X。具体来说,为了保证训练的全面和稳定,我们采取了四个阶段的训练策略。

  • 在第一阶段,我们对基础设施系统进行预训练,包括跟踪、在线地图和占用预测任务,并将基础设施视图的注释作为基础事实。
  • 在第二阶段,我们关注自我-车辆系统内的预训练感知任务。这个阶段包括跟踪和在线地图等任务,使用车辆视图注释作为地面事实。
  • 在第三阶段,对所有融合模块和ego-vehicle系统中的所有模块以及所有任务进行训练。协作视图注释被用作这一阶段的基础真值,其综合损失如下:L = Ltrack + Lmap + Lmotion + Locc + Lplan。
  • 进一步,我们使用自监督学习来训练QueryFlowNet和OccFlowNet。这涉及构建基础架构框架对并使用相似损失进行训练,类似于[62]中描述的策略。

实验

在这里插入图片描述
在这里插入图片描述
【AMOTA】(平均多目标跟踪精度):汇总MOTA总体对象置信度阈值,而不是使用单个阈值。与用于目标检测的mAP类似,它用于评估跟踪算法在所有阈值下的整体准确性能,以提高算法的鲁棒性。AMOTA可以通过在召回率曲线下积分MOTA来计算,使用插值来近似积分以简化计算

在这里插入图片描述
在这里插入图片描述“IoU-n”和“IoUf”分别表示取值范围30×30m和50×50m

在这里插入图片描述
在这里插入图片描述

结论

本文介绍了UniV2X,一种新颖的端到端框架,将来自不同角度的关键任务集成到单个网络中。通过面向规划的方法,它利用原始传感器数据,同时确保协作式自动驾驶的网络可解释性。此外,设计了稀疏密集混合数据传输策略,以利用交叉视图数据,提高整体规划性能。这种传输方式通信友好、可靠,符合V2X通信要求。实证在DAIR-V2X数据集上的结果验证了我们提出的方法的有效性。
局限性和未来的工作。该框架涉及多个模块和不同的代理透视图,导致高度复杂性。因此,框架内的几个交互融合模块仍处于初步阶段。进一步的细化对于优化后续框架的内部设计至关重要。此外,当前的规划评估仅采用L2错误和碰撞率指标。未来将采用更全面的评价指标来衡量规划绩效。在这项工作中,我们只考虑端到端自动驾驶的开环评估。我们将进行更多的闭环实验来评估我们的UniV2X。

  • 28
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值