点击下方卡片,关注“自动驾驶之心”公众号
今天自动驾驶之心为大家分享复旦大学&东方理工学院最新的工作!首创新一代自动驾驶技术,历史预测与规划无缝融合,安全性能跃升—BridgeAD!如果您有相关工作需要分享,请在文末联系我们!
自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
>>点击进入→自动驾驶之心『端到端自动驾驶』技术交流群
论文作者 | Bozhou Zhang等
编辑 | 自动驾驶之心
写在前面 & 笔者的个人理解
端到端自动驾驶通过可微框架统一多任务,支持以规划为导向的优化,近年来受到广泛关注。现有方法主要通过密集的历史鸟瞰图(BEV)特征或稀疏的记忆库查询来聚合历史信息,沿用了检测任务的传统范式。然而,我们认为这些范式要么忽略了运动规划中的历史信息,要么未能与其多步骤特性(需预测或规划多个未来时间步)有效对齐。基于“未来是过去的延续”这一理念,我们提出BridgeAD方法,将运动与规划查询重构为多步骤查询,以区分每个未来时间步的查询目标。这一设计使得历史预测与规划信息能够根据时间步针对性地应用于端到端系统的不同模块,从而提升感知与运动规划的协同性。
具体而言,当前帧的历史查询与感知模块结合,未来帧的查询则与运动规划模块集成。通过这种方式,我们在每个时间步聚合历史信息,弥合了过去与未来的鸿沟,增强了端到端自动驾驶管线的整体连贯性与准确性。在nuScenes数据集上的大量实验(包括开环和闭环设置)表明,BridgeAD取得了最先进的性能。
论文简介
自动驾驶技术近年来发展迅速。传统系统采用模块化方法,将任务划分为感知、预测和规划,虽简化了各任务,但可能中断信息流并导致误差累积。端到端方法统一这些任务,支持以规划为导向的优化,提升了系统一致性,因而受到越来越多的关注。
现有端到端方法主要沿用检测任务的范式,利用时序信息增强性能。这些范式大致分为两类:密集方法聚合历史鸟瞰图(BEV)特征,稀疏方法通过稀疏记忆库查询交互。然而,我们认为这些范式存在不足。如图1(a)所示,前者仅在感知模块中利用时序信息,忽略了其在运动规划中的重要性;后者与历史运动规划查询的交互较为粗糙,每个查询对应一个轨迹实例,未与运动规划的多步骤特性(需预测或规划多个未来时间步以适应动态代理状态)对齐,导致次优结果。

本文提出BridgeAD框架(图1(b)),通过历史预测与规划增强端到端自动驾驶。基于“未来是过去的延续”这一理念,我们首先将运动与规划查询分解为多步骤查询,区分每个未来时间步的目标。随后,当前帧的运动查询(源自历史预测)与感知模块结合以提升感知精度,未来帧的运动与规划查询(源自历史预测与规划)则与运动规划模块集成,通过步骤级交互优化预测与规划结果。此外,运动与规划查询在对应时间步的交互确保了周围代理预测与自车规划的一致性。通过这种方式,BridgeAD在每个时间步聚合历史信息,弥合了过去与未来的鸿沟,增强了端到端自动驾驶管线的整体连贯性与准确性。
主要贡献如下:
多步骤查询表示:将运动与规划查询分解为多步骤形式,针对每个未来时间步利用历史信息。
历史信息融合框架:提出BridgeAD,通过历史预测与规划增强端到端自动驾驶管线。
实验验证:在nuScenes数据集的开环与闭环测试中均达到最优性能。
相关工作回顾
感知
感知模块从原始传感器数据中提取有效信息,主要包括3D检测、多目标跟踪(MOT)和在线地图构建。对于3D检测,一系列基于LSS的方法通过深度估计从2D图像特征生成BEV(鸟瞰图)表示;其他方法则使用预定义的BEV查询进行特征采样。近期方法采用稀疏方法,利用稀疏查询进行时空聚合。对于多目标跟踪,部分工作采用“检测-跟踪”范式,而另一些通过轨迹查询持续建模跟踪实例。在线地图构建方面,HDMapNet通过BEV语义分割结合后处理实现,VectorMapNet采用两阶段自回归Transformer构建矢量化地图,MapTR及其后续工作将地图元素视为置换等价的点集,取得了显著性能。
运动预测
运动预测旨在预测周围智能体的多模态未来轨迹。受检测任务中对象查询的启发,部分方法采用以查询为中心的范式,在运动预测基准中表现优异。一些工作通过引入历史预测或流式处理提升预测性能,其他方法探索从多视角图像端到端预测轨迹。ViP3D利用智能体查询联合执行跟踪与预测,输入包括图像和HD地图。
规划
规划方法分为基于规则和基于学习两类,在规划基准中广泛研究。部分工作探索利用信念状态改进规划或决策。近期,端到端规划因能统一感知、预测和规划而备受关注。早期方法常绕过中间任务(如感知和运动预测)。ST-P3结合地图感知、BEV占用预测和轨迹规划生成自车路径。UniAD通过统一查询设计显著推进端到端自动驾驶,在多项任务中表现突出。VAD采用矢量化地图表示提升效率,GenAD通过生成式框架在潜在空间中预测轨迹,SparseDrive采用稀疏场景表示和并行规划结构。然而,这些方法未充分探索如何利用历史信息提升连续驾驶中的规划连续性与精度。本文的BridgeAD首次将历史预测与规划整合至端到端设计中。
方法详解
概述
BridgeAD框架如图2所示,包含三个主要组件:图像编码器、历史增强感知模块和历史增强运动规划模块。首先,图像编码器从多视角图像中提取多尺度空间特征。随后,历史增强感知模块通过稀疏方法执行3D目标检测、跟踪和在线矢量化地图构建,并通过历史Mot2Det融合模块整合历史信息。最后,历史增强运动规划模块由历史增强运动预测模块、历史增强规划模块和步骤级Mot2Plan交互模块组成,利用历史数据生成运动预测和规划输出。此外,内存队列缓存历史运动和规划查询,为上述模块提供历史信息支持。

多步骤运动与规划查询缓存
BridgeAD的核心设计基于多步骤运动与规划查询的表示。现有方法将多模态运动查询表示为 其中 、 、 分别表示周围智能体数量、预测模式数和特征通道数。每个查询对应一条轨迹。相比之下,我们定义运动查询为 其中 为预测的未来时间步数。类似地,规划查询表示为 , 和 分别为规划模式数和未来规划时间步数。这一设计区分了时间步的查询,为后续模块与历史信息的步骤级交互奠定基础。
历史运动和规划查询的过去 帧存储在内存队列中,采用先进先出(FIFO)机制:新帧信息加入时,最旧条目被移除(图2(a))。
历史增强感知
检测、跟踪与在线地图构建给定多视角图像 ( 为相机视角数),图像编码器提取多视角视觉特征 。感知模块采用稀疏范式,通过对象查询 和锚框 表示周围智能体,利用注意力机制优化查询和锚框。跟踪模块通过ID分配流程关联目标,地图构建采用矢量化表示,结构与检测模块类似。
历史Mot2Det融合如图2(b),历史Mot2Det融合模块从内存队列中提取当前帧时间步对应的历史运动查询 并通过交叉注意力机制与对象查询 ( Q_{\text{obj}} ) 交互:
优化后的对象查询传递至后续模块,提升检测与跟踪精度。
历史增强运动规划
历史增强运动预测运动查询 初始化自对象查询,并从内存队列中提取历史运动查询 )。通过交叉注意力、步骤级自注意力和模式级自注意力优化查询:
该过程(图2(c))增强未来时间步预测的一致性。
历史增强规划规划模块流程类似(图2(d)),初始化多步骤规划查询 ,提取历史规划查询 并通过注意力机制优化:
步骤级Mot2Plan交互如图2(e),规划查询与对应时间步的运动查询交互:
最终输出规划轨迹与评分,并根据驾驶指令(左转、右转、直行)选择最终路径。
L_{\text{total}} = L_{\text{det}} + L_{\text{map}} + L_{\text{mot}} + L_{\text{plan}} \quad (5) $$
以下是论文第四章的中文翻译,专业术语力求准确:
实验结果分析
实验设置
数据集与评估指标
我们在具有挑战性的nuScenes数据集上进行实验,该数据集包含1000个持续20秒的驾驶场景,提供语义地图和3D目标检测标注,采样频率为2Hz,每个关键帧包含6张相机图像。
开环测试:遵循VAD的L2位移误差指标,以及Li等定义的碰撞率(Collision Rate)。
闭环测试:基于NeuroNCAP仿真框架,使用nuScenes数据集构建逼真的安全关键场景。评估指标包括NeuroNCAP分数和碰撞率。
感知与预测指标:检测任务使用mAP和NDS;跟踪任务使用AMOTA、AMOTP和IDS;在线建图使用mAP;运动预测使用ADE、FDE、MR和EPA。
实现细节
模型配置:BridgeAD-S使用ResNet50编码图像特征(输入尺寸256×704),BridgeAD-B使用ResNet101(输入尺寸512×1408)。
训练设置:采用AdamW优化器,余弦退火学习率调度,初始学习率1×10⁻⁴,权重衰减1×10⁻³。分两阶段训练:第一阶段专注感知任务(100轮),第二阶段端到端训练(15轮)。
超参数:运动预测时间步
Tmot=12
(预测周围智能体6秒未来轨迹),规划时间步Tplan=6
(规划自车3秒未来轨迹)。历史信息缓存K=3
帧。

与现有方法的对比
开环规划结果
表1对比了BridgeAD与现有端到端自动驾驶方法(如UniAD、VAD、SparseDrive)及世界模型方法(如OccWorld-D)的性能。
L2位移误差:BridgeAD-S在3秒平均误差为0.59m,优于次优方法SparseDrive(0.61m)。
碰撞率:BridgeAD-S的平均碰撞率仅0.09%,显著低于UniAD(0.61%)和VAD(0.21%)。
效率:BridgeAD-S在NVIDIA RTX 3090上的推理速度为5.0 FPS,优于VAD(6.1 FPS)和UniAD(1.8 FPS)。
闭环规划结果
表2展示了NeuroNCAP仿真结果:
无后处理:BridgeAD-S的NeuroNCAP得分为1.52(对比SparseDrive的0.92),碰撞率降低12.4%(对比UniAD)。
后处理:结合UniAD的轨迹优化策略后,BridgeAD-B得分提升至3.06,碰撞率进一步降至44.3%。


感知与运动预测结果
检测与跟踪(表4):BridgeAD-B的mAP达0.507,AMOTA为0.512,优于BEVFormer和UniAD。
运动预测(表3):BridgeAD-S在ADE/FDE指标上分别为0.62/0.98m(车辆)和0.70/0.99m(行人),优于ViP3D和SparseDrive。

消融实验
规划模块设计的影响
表5显示:
移除历史增强规划模块(ID-1)导致L2误差上升17%(0.71→0.59)。
移除运动-规划交互模块(ID-2)使碰撞率增加10%(0.18→0.09)。

感知与预测模块设计的影响
表6表明:
历史运动预测模块(HisMot)对检测(mAP↑0.019)、跟踪(AMOTA↑0.029)和运动预测(ADE↓0.04)均有显著提升。
自注意力机制的作用
表7验证了规划模块中步级(SLA)和模式级(MLA)自注意力的必要性,二者联合使L2误差降低10.5%(0.66→0.59)。

历史时间步数的影响
表8显示,运动预测使用6步历史信息、规划使用3步历史信息时性能最优(L2误差0.59,碰撞率0.09)。
效率分析
BridgeAD-S的推理延迟为157.2ms,显著快于VAD(224.3ms)和UniAD(555.6ms),在精度与效率间取得平衡。

定性分析
图3展示了开环场景中BridgeAD的感知、预测与规划结果的一致性。图4对比了闭环仿真中BridgeAD与UniAD/SparseDrive在紧急场景下的避撞能力,前者通过历史信息聚合实现了更连贯的路径规划。
自动驾驶之心
论文辅导来啦
知识星球交流社区
近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。
独家专业课程
端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com