上交最新广义端到端自动驾驶综述:统一视角下的三大范式

加我微信,拉你入群,一起讨论,备注:姓名+研究方向+高校或企业,否则不予通过

这几年,自动驾驶的技术流派可谓“神仙打架”:从早期的一体化端到端,到火遍全网的 VLA,再到如今炙手可热的世界模型(World Model),几乎每一家做自动驾驶的公司,都在强调自己那条“独一份”的技术路线。

但如果把这些名词的“包装”撕开,会发现一个很朴素的共性——
不管叫“一段式端到端”、VLA,还是 WA(World Model–Action),
本质上都是在做同一件事:用数据驱动的方式,把传感器的感知输入,转换成车辆的控制信号。

遗憾的是,目前大多数自动驾驶综述在梳理技术路线时,往往把端到端和 VLA 当成两条平行、割裂的路线来讲,很少从统一视角去对比分析。
这就导致一个问题:研究者很难在同一坐标系下,同时看清“传统端到端”和“VLA 范式”之间到底有何本质差异、又在哪些方面殊途同归。

为了解决这个认知断层,上海交通大学 AutoLab 团队联合滴滴,参考了 200 余篇相关工作,撰写了最新综述《广义端到端自动驾驶的综述:统一视角》。

论文中,作者提出了“广义端到端”(GE2E)的概念:只要是通过一个整体模型,将原始传感器输入直接映射为规划轨迹或控制动作的方式,都可以被视为 GE2E——至于中间架构是否引入视觉语言大模型,并不是本质区分。

在这一统一框架下,论文把三类看似分散的技术路线收拢到了一张图谱中:

  • 传统端到端(Conventional E2E),

  • 以视觉语言模型为核心的端到端(VLM-centric E2E),

  • 以及两者深度融合的混合式端到端(Hybrid E2E)。

由此构建出一套相对完整、可对比的技术版图,为后来者提供了一个更清晰的“总览视角”。


🧭 1. 引言:从模块化到“通用端到端”

自动驾驶(Autonomous Driving, AD)是一项极其复杂的任务,需要车辆在真实道路环境中进行精确感知、合理预测、可靠规划与安全控制。传统自动驾驶大多采用模块化架构

  • 感知(检测车、人、灯、路等)

  • 预测(预测其它交通体的未来运动)

  • 规划与控制(生成自车轨迹和控制指令)

这些模块分别设计、分别训练,再通过工程手段组合成一个完整系统。这种方式的优点是可解释、易调试,工程上成熟;但也存在结构性缺陷:

  • 模块之间信息割裂,中间结果丢失细节

  • 误差在流水线上逐级放大(Error Propagation)

  • 各模块优化目标不统一,整体性能受限

随着大规模驾驶数据和深度学习的发展,学界和工业界开始转向端到端(End-to-End, E2E)自动驾驶:直接从传感器输入(图像、激光雷达、导航信息等)预测车辆未来轨迹或控制信号

图1 端到端自动驾驶范式对比。(a)(b)传统端到端、(c)以大模型为中心的端到端、(d)(e)混合端到端。

近几年,端到端自动驾驶发展出了三条看似不同、实则内在统一的技术路线,如上图:

  1. 传统端到端(Conventional E2E)

  • 基于视觉/激光雷达,学习结构化场景表示(如 BEV 占据栅格、向量化地图、对象轨迹等),在统一网络中联合感知、预测和规划。

  • VLM 中心范式(VLM-centric E2E)

    • 以大规模视觉语言模型(VLM / VLA)为核心,将驾驶问题转化为“语言空间中的推理与决策”,由大模型提供高层认知与解释能力。

  • 混合范式(Hybrid E2E)

    • 将传统端到端系统的精确、安全与高效率,与 VLM 的开放世界知识与强泛化能力结合起来。

    本文提出一个统一概念:General End-to-End Autonomous Driving(GE2E)通用端到端自动驾驶
    ——只要系统从原始传感输入出发,通过一个整体模型,直接输出规划轨迹或控制信号,无论中间是否显式使用 VLM,都属于 GE2E 范畴。

    在这个统一视角下,本文系统梳理:

    • 三大范式的典型架构与设计哲学

    • 主流数据集与评测基准

    • 各类方法在开放/闭环指标上的性能对比

    • 共性挑战与未来技术趋势

    为了方便读者阅读,作者绘制了以下思维导图,展示了全文的脉络:

    图 2 GE2E全文脉络

    🔍 2. 传统端到端自动驾驶

    传统端到端方法,希望在统一模型中联合优化感知、预测、规划,避免模块化带来的信息损失与误差累积。根据是否显式设计中间任务,主要可分为:

    1. 仅规划端到端(Planning-only E2E)

    2. 多任务端到端(Multi-task E2E)

    此外,在学习策略上,多数方法以模仿学习为主,也开始融入知识蒸馏、强化学习、自监督、主动学习等手段。


    2.1 仅规划端到端(Planning-only E2E)

    早期 E2E 模型较为简洁,只包含一个从图像 → 控制信号的网络,例如:

    • ALVINN:三层小型网络,从摄像头+激光输入预测转向角

    • NVIDIA CNN E2E:从前向摄像头图像直接预测方向盘转角

    此类方法有明显优势:结构极简、易部署。但很快暴露出局限:3D 场景理解能力不足、决策缺乏多样性、解释性差。后续研究在三个方向上演进:

    (1)多模态融合:增强 3D 场景理解

    单摄像头难以充分获取空间信息,因此出现多模态融合方法:

    • TransFuser:利用 Transformer 融合图像与激光雷达

    • MMFN:进一步融合摄像头、雷达、HD Map 等

    通过更丰富的 3D 信息,规划结果更安全、鲁棒性更高。

    (2)生成式建模:应对轨迹多模态性

    现实中,同一场景往往存在多种合理驾驶行为:  例如前车缓慢行驶时,可以减速跟车,也可以安全变道。

    传统回归式预测会产生“平均轨迹”(既不跟车也不果断变道,反而不安全)。因此,出现基于生成模型的规划:

    • 使用扩散模型 / Flow Matching等对轨迹分布进行建模

    • 例如:

      • GoalFlow:先预测目标点,再在约束下生成多模态轨迹

      • TransDiffuser / DiffusionDrive / DiffAD 等:将规划视为条件轨迹生成问题

    这样可以显式建模“多种备选动作”,并在其上进行选择。

    (3)效率优化:面向车载部署

    真实车辆上计算资源有限,延迟受安全约束较为严格。为此,一些工作专注于效率:

    • Fast-LiDARNet:针对激光雷达进行高效建模和硬件友好优化

    • EfficientFuser:用轻量化 EfficientViT 提高融合效率

    • DRAMA、GMF-Drive、MambaFusion:使用 Mamba 等结构降低时序建模复杂度

    这类方法在保持性能的同时,显著降低了延迟和算力开销。

    纯规划端到端的固有缺陷

    尽管在工程上简洁,规划-only E2E 有两大结构性问题:

    1. 解释性差(Black-box)

    • 直接从原始输入到轨迹,不输出中间结构化结果

    • 出错时很难定位“是感知错了、预测错了,还是规划策略有问题”

  • 监督信号稀疏

    • 只使用最终轨迹监督,未利用丰富的 3D 标注(检测、分割、预测等)

    • 模型难以学到真正的“驾驶因果逻辑”,容易出现安全隐患

    因此,最新的主流研究逐渐转向多任务端到端架构


    2.2 多任务端到端(Multi-task E2E)

    多任务 E2E 将感知、预测、规划 显式建模为多个子任务,但不再作为完全独立模块,而是在统一框架中联合优化

    研究主要聚焦三个问题(可以对应理解为三层能力):

    1. 场景建模与理解(Scene Modeling & Understanding)

    2. 多任务协同(Multi-task Coordination)

    3. 轨迹规划策略(Trajectory Policy)

    2.2.1 场景建模与理解

    目标:构建对自动驾驶友好的高效、全局、时序感知的场景表示

    unsetunset(1)高效场景表示unsetunset

    早期方法(如 UniAD、P3 系列)多采用稠密 BEV 栅格表示

    • 优点:结构直观,便于统一对接下游任务

    • 缺点:计算量大、实例级结构信息弱(物体边界、关系不够明确)

    因此,出现了更稀疏、实例化的表示:

    • VAD:向量化表示关键场景元素(车道线、边界等),减少占据图的冗余

    • SparseAD / SparseDrive:直接对 BEV 上的对象实例建模,不再构建全局稠密 BEV

    • GaussianAD:用 3D 语义高斯云表征场景,实现“稠密语义 + 稀疏结构”兼具

    核心思想:

    不再把整张 BEV 当图片处理,而是把“有用的对象”提炼出来,节省算力并提升决策针对性。

    unsetunset(2)空间理解与推理unsetunset

    安全驾驶不仅需要知道“有什么”,还需要理解“谁和谁之间在互动、有什么约束”

    • GraphAD:用图结构建模“车–车”、“车–路”之间关系

    • DualAD:将动态目标与静态地图的建模解耦,分别优化

    • FusionAD:融合 LiDAR + Camera 提升空间几何理解

    • UncAD:显式建模环境不确定性,利用不确定度指导预测与规划,增强长尾场景的鲁棒性

    unsetunset(3)时间融合与时序推理unsetunset

    除了空间,需要理解动态变化

    • 传统:多帧特征叠加,对齐再融合(如 BEVFormer 系列)

    • 新方法:

      • ReasonNet:用长期记忆库 + Transformer 对历史信息进行全局推理

      • BridgeAD:显式对齐历史轨迹信息与当前时刻

      • GenAD / DiffAD:将“场景演化 + 预测 + 规划”统一为生成任务(例如生成未来 BEV 图像)

    目标:

    不只知道“现在是什么样子”,还要综合历史判断“将会发生什么”。


    2.2.2 多任务协同(Task Coordination)

    多任务 E2E 的优势在于:不同任务间可以互相“借力”

    早期多任务框架中,任务通常是按固定顺序串行执行(感知→预测→规划),任务间交互有限。后续研究主要探索两类协同方式:

    (1)人工设计协同结构

    根据任务之间的关系,重新设计任务组织方式,例如:

    • PPAD:将预测与规划交替执行,体现“自车规划会影响他车运动”的交互逻辑

    • TTOG:融合运动预测与规划,使规划可以直接从行为数据中获益

    • DriveAdapter:用 adapter 解耦感知 & 规划,避免传统行为克隆中“因果混淆”问题

    • DMAD:将语义学习运动学习分离,减少负迁移,强化有益迁移

    (2)统一多任务架构

    另一条路线是:让网络自己学“谁影响谁”,不人为规定顺序:

    • DriveTransformer / HiP-AD

      • 将感知、预测、规划的 Query 放入一个统一模块中交互

      • 每个任务的 Query 既与图像/雷达交互,也与其它任务 Query 和历史 Query 交互

      • 最后通过任务专用 head 输出各自结果

    这种架构便于扩展更多任务(如地图构建、行为解释),也更利于大规模训练与统一优化。


    2.2.3 轨迹规划策略(Trajectory Policy)

    即“如何生成安全、舒适、符合法规的轨迹”。在简单模仿学习的基础上,出现了几种重要思路:

    (1)后处理优化
    • 如 UniAD:先预测占据,再通过数值优化(牛顿法等)在占据约束下修正轨迹

    • 优点:可利用 3D 几何信息进一步提高安全性

    • 缺点:

      • 破坏端到端的一体性

      • 优化器本身不可学习,上限有限

      • 依赖感知质量,错误会放大

    因此出现了可微优化思路:把后处理写成可微层,合并进训练中,让优化过程也被学习。

    (2)可训练轨迹评估器(候选选择)

    另一类做法:先生成一批候选轨迹,再通过可学习评估器选择最优:

    • 使用聚类等方法离线构建“轨迹词典”

    • 模型从有限词典中选轨迹 ID,或在其基础上稍作修正

    • 如:

      • Hydra-MDP / Hydra-MDP++:多头解码器预测多种候选,配合多指标评估

      • WoTE / World4Drive:基于世界模型预测未来环境状态,对轨迹进行前瞻性评估

    这类方法兼顾可解释性与端到端训练能力。

    (3)概率规划与扩散策略

    针对“规划多模态性”的问题,除了生成模型,还可以在输出层直接预测概率分布

    • VADv2:预测概率分布,并从中采样动作,显著提升闭环表现

    • DiffusionDrive / DiffAD / DiffE2E / Consistency 等

      • 将规划建模为扩散/一致性模型中的条件生成任务

      • 面临的核心问题是:如何保证实时性

      • 例如:DiffusionDrive 通过“截断扩散”大幅减少步骤,在 4090 上达 45FPS

    (4)分层/层级规划

    一部分研究认为“一次性生成全轨迹”难以适应环境动态变化,因此采用分层策略:

    • 先生成高层意图(如 keyframe、意图路线),再细化为高频轨迹

    • 代表方法:

      • KEMP:基于关键帧的分层预测

      • ThinkTwice:多解码器堆叠,利用空间–时间先验迭代细化

      • CogAD:粗到细的认知式规划(意图 → 精细轨迹)

      • ARTEMIS:自回归逐点输出,强时间依赖、鲁棒性高


    2.3 学习策略:超越“纯模仿”的几条路

    绝大多数 E2E 方法都基于行为克隆 / 模仿学习。但单纯模仿存在:

    • 对长尾和危险场景泛化差

    • 容易发生 Covariate Shift(偏离专家分布后不断累积错误)

    因此,许多工作开始探索更丰富的学习策略。

    2.3.1 知识蒸馏(Knowledge Distillation)

    利用“特权教师” → “普通学生”的范式:

    • 教师有额外信息或更强模型能力(如访问真值状态、使用强化学习训练)

    • 学生模型则是车辆部署时实际使用的端到端网络

    典型工作:

    • LBC:教师直接访问环境真值,学生只用视觉输入,通过蒸馏获得更强能力

    • Roach:RL 训练的特权 Agent 生成高质量轨迹,给 E2E 学生做监督

    • IVMP / DistillDrive:蒸馏多模态规划模型(包含光流、语义地图等中间任务)的表示

    目标:弥补端到端模仿学习中监督信号的稀疏性与偏差。

    2.3.2 强化学习(Reinforcement Learning, RL)

    RL 能通过与环境交互获得新体验,对长尾场景与多目标优化尤其有价值:

    • Drive in a Day:早期将端到端驾驶建模为 MDP,用深度 RL 训练

    • RDMF / SAPO-RM:利用不确定度或安全约束(如控制屏障函数)指导探索,减少危险试错

    • RAD / ReconDreamer-RL / EvaDrive

      • 结合高保真 3D 场景重建 / 视频生成构建“虚拟世界”做 RL

      • 以 3D Gaussian Splatting / Diffusion 等技术生成大量复杂场景

      • 在此基础上做闭环强化,降低真实世界试错开销

    2.3.3 自监督学习(Self-supervised Learning)

    目标:大量无标注驾驶数据中挖掘规律,降低昂贵 3D 标注依赖:

    • PPGeo:先做几何自监督,再做策略预训练,少量标注即可适配多任务

    • LAW:训练“潜在世界模型”,自监督预测未来,提升场景表示与轨迹预测

    • UAD:只用 2D 无监督任务替代依赖 3D 标注的模块,在零 3D 标注下超过多种 SOTA

    2.3.4 主动学习(Active Learning)

    应对 covariate shift 的经典方法是 DAgger,但简单“采样+标注+混合训练”容易退化。

    • DARB:指出关键在于“样本质量”而非“数量”,提出关键状态采样——优先标注最信息量、更危险的状态

    • ActiveAD / SEAD:从数据多样性、场景信息、BEV 特征等角度设计样本选择策略,在少量标注下逼近甚至匹配全数据性能

    2.3.5 其他策略

    一些工作从鲁棒性与实用性出发,引入了更多训练机制:

    • 对抗训练(如 MA2T):提升模型对恶意干扰的鲁棒性

    • 测试时训练(TTT)(Centaur):部署时自适应修正

    • 分层联邦学习(CRCHFL):面向车队与边缘计算场景的分布式训练


    🧠 3. VLM 驱动的“认知型”端到端驾驶

    传统端到端系统在开放世界理解和复杂推理上存在“天花板”:

    1. 假设封闭世界:只能识别预定义类别,难以应对新颖/长尾事件

    2. 结构上仍是“感知–预测–规划”流水线,不具备统一、可语言化的世界模型与因果推理能力

    为弥补这一本质认知差距,近年兴起一类以大规模视觉语言模型(VLM)为核心的范式:

    • 把自动驾驶 Agent 看作一个“认知体”

      • 能看(视觉编码)

      • 能想(语言推理 + 场景建模)

      • 能说(解释决策)

      • 还能驱动规划模块完成精细控制

    这一类方法通常采用类似结构(可理解为通用 VLM / VLA 框架的驾驶特化版):

    1. 视觉编码器 + 文本编码器

    2. 跨模态对齐模块(将视觉特征映射到语言空间)

    3. 大语言模型(LLM)作为“中枢大脑”

    4. 动作头(Action Head)或轨迹规划器输出驾驶行为

    下面从架构、学习策略与效率优化三个层面,概述这一范式的关键设计。


    3.1 模型结构

    3.1.1 视觉–语言对齐(Vision–Language Alignment)

    核心任务:将高维视觉特征转为 LLM 可以理解的“语义 token”。

    两种主流路线:

    1. 直接投影(MLP / 线性层)

    • 将视觉特征直接映射到 LLM 的嵌入空间

    • 结构简单,诸多工作采用(DriveMLM、DriveGPT4v2、DriveMoE 等)

  • 基于 Query 的压缩(如 Q-Former)

    • 使用少数可学习 Query 向量,从视觉特征中“提取精华”

    • 节省 token 数量,提升效率

    此外,针对自动驾驶的空间特性,出现了任务定制化对齐方法

    • BEV-TSR / GPVL:通过检索或 3D 任务预训练,对齐 BEV 特征与文本描述

    • MPDrive:避免让 LLM直接生成复杂坐标,改用可视化标记简化空间表述

    • Prompting Multi-Modal Tokens / Driving with LLMs:将 LiDAR 点云、向量化轨迹等结构化数据,以“伪 token”或“向量描述”形式输入 LLM

    3.1.2 时空理解(Spatiotemporal Understanding)

    自动驾驶是“四维问题”:3D 空间 + 时间。

    unsetunset(1)增强 3D 空间理解unsetunset

    几类典型思路:

    • 显式 3D 建模

      • OmniDrive:加入显式 3D 位置编码

      • Atlas:用 DETR 式结构直接 token 化 3D 场景

      • S4-Driver:用稀疏体素将多视角 2D 特征投影到 3D

    • 多模态 3D 融合

      • LiDAR-LLM、DriveMLM、LMDrive、BEVDriver 等,将 LiDAR 点云与图像融合提升几何准确性

    • 对象中心先验

      • Reason2Drive、MPDrive、DriveMonkey 等,将物体与空间关系结构化输入 VLM,提高对复杂交通互动的理解

    • 隐式 3D:靠数据规模“涌现”

      • Cube-LLM 等工作尝试依靠大规模多视角数据,让模型自发习得 3D 直觉

    unsetunset(2)时间维度建模unsetunset
    • Sce2DriveX、LaVida Drive:使用长时间视频片段 + BEV 全局信息,学习长时程交通事件

    • TrackingMeetsLMM:引入目标跟踪信息,为每个动态体建立时间连续的轨迹

    • ORION:设计基于 Query 的时间记忆模块(QT-Former),从历史帧中取出重要上下文

    3.1.3 推理能力(Reasoning)

    VLM 的真正价值,在于推理与解释,不仅是识别。

    unsetunset(1)记忆增强推理unsetunset
    • 长时记忆:

      • Drive Like a Human、DiLu、LeapVAD、LeapAD、Drive as You Speak 等

      • 把“过去的驾驶经历、用户偏好、规则”存入记忆库,供未来决策参考

    • 短时记忆:

      • Agent-Driver、DriVLMe 等,用记忆保持多轮交互的上下文,保证“前后说法一致、行动连续”

    unsetunset(2)链式思维(Chain-of-Thought, CoT)unsetunset

    将复杂决策拆解为有逻辑顺序的子步骤:

    • 结构化逻辑 CoT:Dolphins、CoT-Drive、ReasonPlan、X-Driver、EMMA

    • 时空 CoT:FSDrive 强调对“未来若干帧”进行逐步视觉推演

    • 工具增强 CoT:Agent-Driver、AgentThink、Receive-Reason-React、DriveAgent-R1

    • 动态 CoT:AutoVLA,能根据任务难度决定要不要“多想几步”

    • 自反思 CoT:AutoDrive-R²,模型对自己的推理结果做自我审查

    unsetunset(3)图式视觉问答(GVQA)unsetunset

    将驾驶问题拆解为“对场景图的一系列问答”:

    • DriveLM、SimpleLLM4AD 等:

      • 先构建场景图(对象及其关系)

      • 再以问答链形式,按“感知→预测→规划”顺序推理

      • 使决策过程更透明、可检查

    unsetunset(4)检索增强生成(RAG)unsetunset

    用外部知识库弥补单一参数模型的知识边界:

    • RAG-Driver:从历史驾驶案例中检索相似情况

    • Driving with Regulation:检索相关交通法规,辅助判定何种行为合规

    unsetunset(5)嵌入驾驶知识unsetunset
    • Hybrid Reasoning、WiseAD 等,通过加入交通规则、物理约束等,提升安全性与可依赖性

    unsetunset(6)面向可解释性的推理unsetunset
    • VLAAD、ADAPT、Explanation for Trajectory Planning 等,专门训练模型输出语言解释 + 行为,并保证两者一致性

    3.1.4 行为与规划策略(Planning & Action Head)

    VLM 输出的“高层决策”要落地为精确执行,常见有两类接口设计:

    unsetunset(1)VLM + 控制器unsetunset
    • VLM + MLP + PID:如 LMDrive、CarLLaVA、SimLingo、DriveGPT4-v2

    • VLM + MPC:LanguageMPC、VLM-MPC

    • Empowering:让 LLM 输出安全约束,MPC 负责求解;再把 MPC 的可行性反馈给 LLM,形成闭环

    unsetunset(2)VLM + 轨迹规划器unsetunset
    • 规则式规划:DriveMLM、ChatGPT as Co-Pilot 等,用 VLM 决定高层策略,规则模块生成具体轨迹

    • 生成式轨迹规划:DriveMoE、Diff-VLA、ReCogDrive 等,利用扩散或生成模型生成多条候选轨迹

    unsetunset安全校验机制unsetunset

    为缓解 VLM“幻觉”与不确定性,通常会在执行前增加安全检查:

    • 事后验证/优化

      • CALMM-Drive:多候选方案 + 分层筛选

      • PlanAgent:使用模拟评估轨迹安全性

      • LeapAD / LeapVAD:通过记忆与反思修正行为

    • 训练阶段嵌入反馈

      • FeD:引入语言化反馈,引导模型逐步纠正行为

    unsetunset推理与规划对齐unsetunset

    一个核心问题:解释逻辑(CoT)与最终行为是否一致

    • SimLingo:引入语言–动作对齐机制

    • RDA-Driver:用对比学习让“正确行为–合理解释”成为正对,其他为负对

    • ORION:使用统一潜在空间,让推理结果可以直接指导轨迹生成,实现语义空间与数值空间的深度对齐


    3.2 学习策略(VLM 场景)

    与传统 E2E 类似,VLM 场景中也广泛使用:

    • 知识蒸馏:FeD、VLM-assisted 等

    • 强化学习:AlphaDrive、Poutine、ReCogDrive、AutoVLA 等

    • 数据高效学习:LDM、ReasonPlan、S4-Driver 等通过自监督及少量标注获得接近全监督性能


    3.3 效率问题与优化思路

    VLM / VLA 能力强,但大而慢是现实约束。优化路径大致三条:

    1. 模型蒸馏:如 CoT-Drive、DSDrive,把大模型的推理能力压缩到小模型

    2. 架构优化

    • 早退(AD-EE)、动态分辨率(DynRsl-VLM)、MoE(DriveMoE)

    • 异步推理(AsyncDriver):让规划高频运行,LLM 低频决策

  • 数据与 Token 优化

    • 结构化表达(FastDrive、ReCogDrive、Senna、VERDI 等)

    • Token Pruning(AutoPrune 等)


    🔗 4. VLM × 传统 E2E:混合范式

    传统 E2E 像一个反应迅速、动作精准的“身体”,但在开放世界理解和复杂推理上有限;
    VLM 像一个知识丰富、善于推理的“头脑”,但在数值控制与实时性能方面存在“行动鸿沟”。

    混合范式就是在两者之间搭建“认知–执行桥梁”

    主要有两大技术路线:

    1. 在线协同(Online Coordination):VLM 在推理时参与决策

    2. 离线知识迁移(VLM-Aided Training):VLM 只在训练时做“老师”,推理时只保留高效 E2E 模型


    4.1 在线协同:分层融合架构

    整体思路:

    VLM 负责“想清楚干什么”,E2E 负责“怎么精细完成”。

    融合位置主要有三种:

    4.1.1 感知层融合

    目标:利用 VLM 的语义能力,增强 E2E 感知模块的语义与注意力

    • VLM-E2E:用 VLM 生成与驾驶相关的文本提示,将其与 BEV 特征融合

    • NetRoller:提出“即时首 token 全层获取”机制,快速获取 VLM 中间层信息,提高融合实时性

    核心挑战在于:

    如何在不大幅增加延迟的前提下,将 VLM 的高维、长时语义有效注入到 E2E 的高频感知流程中?

    4.1.2 规划层融合

    目前最常见的方式 —— VLM 输出高层命令/策略,E2E 负责输出实际轨迹。

    代表工作:

    • DriveVLM / Senna:VLM 生成高层指令(meta-action,如“变道超车”),下游规划器条件化生成轨迹

    • DME-Driver:引入人类决策逻辑

    • FASIONAD:启发自《快思慢想》,设计快/慢两种思考模式

    • VLAD / LeAD:在系统架构和更新节奏上做进一步优化(如多时钟频率)

    4.1.3 感知 + 规划协同融合

    进一步的工作尝试实现“双向信息流与架构共享”

    • DriveVLM:感知输出由 VLM 进行语义校验,VLM 提供的“建议轨迹”反哺规划模块

    • SOLVE:共享视觉编码器,VLM 对规划模块进行“初始化与指导”

    • Hint-AD:将 E2E 的中间结果输入到 VLM,生成对齐解释,使整体系统更可解释

    可以看到,混合架构正从“简单串联”向“深度耦合、互相依赖”演化。


    4.2 离线知识迁移:VLM 辅助训练

    这种方法的特点是:

    • 训练阶段:使用 VLM 作为“教师”,提供额外监督信号(高层动作、语言解释、链式推理等)

    • 推理阶段:仅保留传统 E2E 模型,不引入任何 VLM 计算

    优点:

    • 不增加部署复杂度和延迟

    • 能将 VLM 的认知能力“固化”到 E2E 模型参数中

    缺点:

    • 性能受限于 Teacher VLM 的知识覆盖和 Student 的容量

    • 如何保证蒸馏后的策略在开放世界中仍然可靠,仍是难题

    4.2.1 规划与动作对齐

    代表工作:

    • VLM-AD:让 VLM 生成结构化动作标签(如转弯、变道),作为附加标签监督 E2E 模型

    • DIMA:将学生模型的潜在表示对齐到“教师模型理解下的结构化空间”

    本质是:

    让 E2E 模型内部表示“带上语言语义”,使其决策更加可解释、行为更加稳定。

    4.2.2 感知–预测–规划全链路对齐

    更进一步的方法希望对整个决策链条进行对齐:

    • VERDI:用 VLM 的推理链对感知、预测、规划的中间特征分别施加监督

    • VLP:对齐 BEV 表征与“理想 BEV 表征”的语义空间

    • ALN-P3:提出统一的“感知–预测–规划”联蒸馏框架,要求从输入到输出整条链路都与 VLM 的语言推理一致

    目标可以概括为:

    不仅要“做对”,还要“想明白为什么要这么做”。


    为了更直观地理解各流派的异同,作者整理了主流模型的输入、骨干网络、中间任务及输出形式,欢迎查阅。


    📊 5. 数据集与评测基准

    GE2E 研究需要同时覆盖:

    • 不带语言标注的传统自动驾驶数据集

    • 带语言标注的视觉语言自动驾驶数据集

    5.1 无语言标注数据集:规划评测

    主要用于评估规划与闭环控制

    • nuScenes:多模态感知 + 短时规划,主要用于开放环(Open-loop)评测

      • 指标包括 L2 误差、碰撞率等

    • CARLA / Bench2Drive:可控制天气、交通密度、路况,多用于闭环仿真评测

      • 指标:Route Completion、Infraction Score、Driving Score

    • NAVSIM:介于开放与闭环之间,通过模拟预测评估真实世界表现,兼顾可靠性与效率

    5.2 含语言标注数据集:VLM / VLA 专用

    近年来,基于 LLM 辅助构建的数据集大量涌现,用于:

    • 场景理解(QA / Caption)

    • 行为解释(为何刹车、为何变道)

    • 语言指令驱动控制

    • CoT 推理、图问答等

    按数据来源大致可分为四类:

    1. 完全基于 nuScenes 构建(Talk2Car、DriveLM、NuScenes-QA、NuPrompt、SURDS 等)

    2. 基于其他开源数据集(KITTI、WOMD、BDD、DRAMA 等)

    3. 自采真实数据(LingoQA、MAPLM、CoVLA、DriveAction、DrivingVQA 等)

    4. CARLA 仿真生成(DriveMLM、DriveLM-CARLA、DriveCoT、Bench2ADVLM、SimLingo 等)

    为了帮助研究者快速上手,我们在综述原文(Table 2)中系统梳理了现有 VL 数据集的规模、任务类型、数据来源及标注方式,如图3所示。

    图 3 VL数据集总结

    5.3 性能对比与趋势

    图 4 规划性能对比图

    从图4的公开排行榜来看:

    • Open-loop(nuScenes, NAVSIM)

      • 顶尖方法中传统 E2E 占主导

      • 但带 VLM 的混合 / VLA 方法在某些指标上逐渐追平甚至超越

      • NAVSIM 上已有模型在综合指标上超越人类司机表现

    • Closed-loop(Bench2Drive, CARLA Town05)

      • 传统 E2E 在稳定性和路线完成率上仍然有明显优势

      • 当前 VLA/VLM 方法在“轨迹数值精度 + 对环境反作用的建模”上还有提升空间

    整体趋势:

    • 传统 E2E:数值精度高、闭环性能好

    • VLM/VLA:泛化能力强、解释能力好、在开放世界中表现出色

    • 混合范式:有望在两者之间找到更好的平衡点


    ⚠️ 6. 核心挑战

    从 GE2E 统一视角来看,三大范式共同面临以下关键挑战:

    6.1 长尾数据分布

    现实道路中,大多数数据是“平淡”场景,真正危险或复杂的场景极少:

    • 模型在长尾场景表现差

    • 合成数据 / 仿真补长尾常有“仿真–现实域差”问题

    • VLM 即便有海量世界知识,在特定任务微调中也可能出现灾难性遗忘

    目前方向包括:

    • 生成长尾场景(仿真 + 生成模型)

    • 强化学习探索罕见状态

    • 终身学习 / 数据引擎持续挖掘“高价值失败案例”

    6.2 可解释性

    • 传统 E2E:

      • 多依赖注意力可视化、检测结果等方式做“间接解释”

      • 难以准确反映真正的内部因果逻辑

    • VLA:

      • 具备天然“会说话”的优势,可用 CoT 输出推理过程

      • 但“解释与行为可能不一致”的问题非常现实(Hallucination / 对齐不足)

    如何确保“想的内容”与“做的事情”真正一致,仍是重要研究方向。

    6.3 安全与法规保障

    • 仅靠训练时加入安全约束,还不足以应对真实世界的复杂、不确定情况

    • 推理时安全模块虽有帮助,却会:

      • 破坏端到端简洁性

      • 过于保守,降低效率和用户体验

    如何在安全、效率、舒适性之间找到可量化、可调的平衡,是核心难题。

    6.4 实时效率

    特别是 VLM/VLA:

    • 参数大、推理慢、生成式解码延迟高

    • 各类压缩/裁剪/早退策略往往带来能力下降或可靠性损失

    低延迟约束下保持高鲁棒性,仍是开放问题。


    🚀 7. 未来趋势与研究方向

    综合全文,未来 GE2E 自动驾驶的关键方向包括:

    1. 强化学习 + 模仿学习的混合范式

    • 先用模仿学习快速获得可用策略,再用 RL 在仿真/世界模型中进行安全的闭环优化

    • 面向多目标(安全、舒适、效率、合规)的奖励建模与策略优化

  • 自动驾驶基础模型(Driving Foundation Models)

    • 大规模预训练 + 小样本场景微调

    • VLA 作为统一“感知–推理–规划”框架,通过世界知识提升对长尾事件的预判能力

  • 智能体系统(Agent Systems)

    • LLM 作为“调度与决策中枢”,调用感知、地图、规划等专用子模型(Tools)

    • 形成多模块协作的“认知–执行层级结构”,提升解释性与鲁棒性

  • 世界模型(World Models)

    • 在潜在空间里“模拟未来”,实现安全的离线探索和规划

    • 把“预测未来场景演化”作为一个自监督任务,从海量视频中学习

  • 跨模态融合(Vision + LiDAR + HD Map + 文本)

    • 将 RGB 丰富语义与 LiDAR 精确几何、有结构地图高层规则有效融合

    • 提升在复杂 3D 环境中的决策可靠性

  • 数据引擎(Data Engine)与自动化闭环

    • 从真实路测与用户数据中自动挖掘“模型失败样本”“不确定样本”

    • 形成“采集 → 筛选 → 标注/合成 → 训练 → 上路 → 再采集”的闭环迭代体系


    ✅ 8. 小结

    本文从统一的 GE2E 视角回顾并梳理了:

    • 三大端到端自动驾驶范式

      • 传统 E2E

      • VLM 核心 E2E

      • 混合 E2E

    • 架构设计、学习策略、数据与评测上的代表性工作

    • 各类方法在开放/闭环场景中的优势与不足

    • 面向未来的关键挑战与突破方向

    可以看到,端到端自动驾驶正在从:

    “只会模仿、不会解释的黑盒控制器”
    逐步演化为
    “既能看、能想、能说,又能安全开车的智能体系统”。

    在这个过程中,基础模型、世界模型、强化学习、VLM/VLA 与工程级数据引擎将是推动下一代自动驾驶系统走向真正“可靠、安全、可解释”的关键技术支柱。

    欢迎感兴趣的读者查阅论文原文与开源项目,进一步深入这条正在快速演进的技术路线。


    参考:

    论文标题:Survey of General End-to-End Autonomous Driving: A Unified Perspective

    单位:上海交通大学,滴滴出行

    链接:https://doi.org/10.36227/techrxiv.176523315.56439138/v1

    项目主页:https://github.com/AutoLab-SAI-SJTU/GE2EAD

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值