nuScenes SOTA！复旦BridgeAD：历史预测与规划无缝融合助力端到端登顶（CVPR‘25）

最新推荐文章于 2025-04-28 22:34:08 发布

自动驾驶之心

最新推荐文章于 2025-04-28 22:34:08 发布

阅读量909

点赞数 19

本文链接：https://blog.csdn.net/cv_autobot/article/details/146450239

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享复旦大学&东方理工学院最新的工作！首创新一代自动驾驶技术，历史预测与规划无缝融合，安全性能跃升—BridgeAD！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『端到端自动驾驶』技术交流群

论文作者 | Bozhou Zhang等

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

端到端自动驾驶通过可微框架统一多任务，支持以规划为导向的优化，近年来受到广泛关注。现有方法主要通过密集的历史鸟瞰图（BEV）特征或稀疏的记忆库查询来聚合历史信息，沿用了检测任务的传统范式。然而，我们认为这些范式要么忽略了运动规划中的历史信息，要么未能与其多步骤特性（需预测或规划多个未来时间步）有效对齐。基于“未来是过去的延续”这一理念，我们提出BridgeAD方法，将运动与规划查询重构为多步骤查询，以区分每个未来时间步的查询目标。这一设计使得历史预测与规划信息能够根据时间步针对性地应用于端到端系统的不同模块，从而提升感知与运动规划的协同性。

具体而言，当前帧的历史查询与感知模块结合，未来帧的查询则与运动规划模块集成。通过这种方式，我们在每个时间步聚合历史信息，弥合了过去与未来的鸿沟，增强了端到端自动驾驶管线的整体连贯性与准确性。在nuScenes数据集上的大量实验（包括开环和闭环设置）表明，BridgeAD取得了最先进的性能。

论文简介

自动驾驶技术近年来发展迅速。传统系统采用模块化方法，将任务划分为感知、预测和规划，虽简化了各任务，但可能中断信息流并导致误差累积。端到端方法统一这些任务，支持以规划为导向的优化，提升了系统一致性，因而受到越来越多的关注。

现有端到端方法主要沿用检测任务的范式，利用时序信息增强性能。这些范式大致分为两类：密集方法聚合历史鸟瞰图（BEV）特征，稀疏方法通过稀疏记忆库查询交互。然而，我们认为这些范式存在不足。如图1(a)所示，前者仅在感知模块中利用时序信息，忽略了其在运动规划中的重要性；后者与历史运动规划查询的交互较为粗糙，每个查询对应一个轨迹实例，未与运动规划的多步骤特性（需预测或规划多个未来时间步以适应动态代理状态）对齐，导致次优结果。

本文提出BridgeAD框架（图1(b)），通过历史预测与规划增强端到端自动驾驶。基于“未来是过去的延续”这一理念，我们首先将运动与规划查询分解为多步骤查询，区分每个未来时间步的目标。随后，当前帧的运动查询（源自历史预测）与感知模块结合以提升感知精度，未来帧的运动与规划查询（源自历史预测与规划）则与运动规划模块集成，通过步骤级交互优化预测与规划结果。此外，运动与规划查询在对应时间步的交互确保了周围代理预测与自车规划的一致性。通过这种方式，BridgeAD在每个时间步聚合历史信息，弥合了过去与未来的鸿沟，增强了端到端自动驾驶管线的整体连贯性与准确性。

主要贡献如下：

多步骤查询表示：将运动与规划查询分解为多步骤形式，针对每个未来时间步利用历史信息。
历史信息融合框架：提出BridgeAD，通过历史预测与规划增强端到端自动驾驶管线。
实验验证：在nuScenes数据集的开环与闭环测试中均达到最优性能。

方法详解

概述

BridgeAD框架如图2所示，包含三个主要组件：图像编码器、历史增强感知模块和历史增强运动规划模块。首先，图像编码器从多视角图像中提取多尺度空间特征。随后，历史增强感知模块通过稀疏方法执行3D目标检测、跟踪和在线矢量化地图构建，并通过历史Mot2Det融合模块整合历史信息。最后，历史增强运动规划模块由历史增强运动预测模块、历史增强规划模块和步骤级Mot2Plan交互模块组成，利用历史数据生成运动预测和规划输出。此外，内存队列缓存历史运动和规划查询，为上述模块提供历史信息支持。

多步骤运动与规划查询缓存

BridgeAD的核心设计基于多步骤运动与规划查询的表示。现有方法将多模态运动查询表示为其中、、分别表示周围智能体数量、预测模式数和特征通道数。每个查询对应一条轨迹。相比之下，我们定义运动查询为其中为预测的未来时间步数。类似地，规划查询表示为，和分别为规划模式数和未来规划时间步数。这一设计区分了时间步的查询，为后续模块与历史信息的步骤级交互奠定基础。

历史运动和规划查询的过去帧存储在内存队列中，采用先进先出（FIFO）机制：新帧信息加入时，最旧条目被移除（图2(a)）。

历史增强感知

检测、跟踪与在线地图构建给定多视角图像 ( 为相机视角数），图像编码器提取多视角视觉特征。感知模块采用稀疏范式，通过对象查询和锚框表示周围智能体，利用注意力机制优化查询和锚框。跟踪模块通过ID分配流程关联目标，地图构建采用矢量化表示，结构与检测模块类似。

历史Mot2Det融合如图2(b)，历史Mot2Det融合模块从内存队列中提取当前帧时间步对应的历史运动查询并通过交叉注意力机制与对象查询 ( Q_{\text{obj}} ) 交互：

优化后的对象查询传递至后续模块，提升检测与跟踪精度。

历史增强运动规划

历史增强运动预测运动查询初始化自对象查询，并从内存队列中提取历史运动查询）。通过交叉注意力、步骤级自注意力和模式级自注意力优化查询：

该过程（图2(c)）增强未来时间步预测的一致性。

历史增强规划规划模块流程类似（图2(d)），初始化多步骤规划查询，提取历史规划查询并通过注意力机制优化：

步骤级Mot2Plan交互如图2(e)，规划查询与对应时间步的运动查询交互：

最终输出规划轨迹与评分，并根据驾驶指令（左转、右转、直行）选择最终路径。

L_{\text{total}} = L_{\text{det}} + L_{\text{map}} + L_{\text{mot}} + L_{\text{plan}} \quad (5) $$

以下是论文第四章的中文翻译，专业术语力求准确：

实验结果分析

实验设置

数据集与评估指标
我们在具有挑战性的nuScenes数据集上进行实验，该数据集包含1000个持续20秒的驾驶场景，提供语义地图和3D目标检测标注，采样频率为2Hz，每个关键帧包含6张相机图像。

开环测试：遵循VAD的L2位移误差指标，以及Li等定义的碰撞率（Collision Rate）。
闭环测试：基于NeuroNCAP仿真框架，使用nuScenes数据集构建逼真的安全关键场景。评估指标包括NeuroNCAP分数和碰撞率。
感知与预测指标：检测任务使用mAP和NDS；跟踪任务使用AMOTA、AMOTP和IDS；在线建图使用mAP；运动预测使用ADE、FDE、MR和EPA。

实现细节

模型配置：BridgeAD-S使用ResNet50编码图像特征（输入尺寸256×704），BridgeAD-B使用ResNet101（输入尺寸512×1408）。
训练设置：采用AdamW优化器，余弦退火学习率调度，初始学习率1×10⁻⁴，权重衰减1×10⁻³。分两阶段训练：第一阶段专注感知任务（100轮），第二阶段端到端训练（15轮）。
超参数：运动预测时间步Tmot=12（预测周围智能体6秒未来轨迹），规划时间步Tplan=6（规划自车3秒未来轨迹）。历史信息缓存K=3帧。

与现有方法的对比

开环规划结果
表1对比了BridgeAD与现有端到端自动驾驶方法（如UniAD、VAD、SparseDrive）及世界模型方法（如OccWorld-D）的性能。

L2位移误差：BridgeAD-S在3秒平均误差为0.59m，优于次优方法SparseDrive（0.61m）。
碰撞率：BridgeAD-S的平均碰撞率仅0.09%，显著低于UniAD（0.61%）和VAD（0.21%）。
效率：BridgeAD-S在NVIDIA RTX 3090上的推理速度为5.0 FPS，优于VAD（6.1 FPS）和UniAD（1.8 FPS）。

闭环规划结果
表2展示了NeuroNCAP仿真结果：

无后处理：BridgeAD-S的NeuroNCAP得分为1.52（对比SparseDrive的0.92），碰撞率降低12.4%（对比UniAD）。
后处理：结合UniAD的轨迹优化策略后，BridgeAD-B得分提升至3.06，碰撞率进一步降至44.3%。

感知与运动预测结果

检测与跟踪（表4）：BridgeAD-B的mAP达0.507，AMOTA为0.512，优于BEVFormer和UniAD。
运动预测（表3）：BridgeAD-S在ADE/FDE指标上分别为0.62/0.98m（车辆）和0.70/0.99m（行人），优于ViP3D和SparseDrive。

消融实验

规划模块设计的影响
表5显示：

移除历史增强规划模块（ID-1）导致L2误差上升17%（0.71→0.59）。
移除运动-规划交互模块（ID-2）使碰撞率增加10%（0.18→0.09）。

感知与预测模块设计的影响
表6表明：

历史运动预测模块（HisMot）对检测（mAP↑0.019）、跟踪（AMOTA↑0.029）和运动预测（ADE↓0.04）均有显著提升。

自注意力机制的作用
表7验证了规划模块中步级（SLA）和模式级（MLA）自注意力的必要性，二者联合使L2误差降低10.5%（0.66→0.59）。

历史时间步数的影响
表8显示，运动预测使用6步历史信息、规划使用3步历史信息时性能最优（L2误差0.59，碰撞率0.09）。

效率分析

BridgeAD-S的推理延迟为157.2ms，显著快于VAD（224.3ms）和UniAD（555.6ms），在精度与效率间取得平衡。

定性分析

图3展示了开环场景中BridgeAD的感知、预测与规划结果的一致性。图4对比了闭环仿真中BridgeAD与UniAD/SparseDrive在紧急场景下的避撞能力，前者通过历史信息聚合实现了更连贯的路径规划。

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com