上交最新广义端到端自动驾驶综述：统一视角下的三大范式

最新推荐文章于 2025-12-19 13:55:31 发布

转载最新推荐文章于 2025-12-19 13:55:31 发布 · 16 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247738222&idx=2&sn=6a64233ec91054e9e38b815b423e2914&chksm=fafccbbb8ed724b7920eade36cc81a25b8d6f797a3ed540be431933553c6fe7afe2a24064352&scene=126&sessionid=0

文章标签：

#自动驾驶 #人工智能 #机器学习

加我微信，拉你入群，一起讨论，备注：姓名+研究方向+高校或企业，否则不予通过

这几年，自动驾驶的技术流派可谓“神仙打架”：从早期的一体化端到端，到火遍全网的 VLA，再到如今炙手可热的世界模型（World Model），几乎每一家做自动驾驶的公司，都在强调自己那条“独一份”的技术路线。

但如果把这些名词的“包装”撕开，会发现一个很朴素的共性——
不管叫“一段式端到端”、VLA，还是 WA（World Model–Action），
本质上都是在做同一件事：用数据驱动的方式，把传感器的感知输入，转换成车辆的控制信号。

遗憾的是，目前大多数自动驾驶综述在梳理技术路线时，往往把端到端和 VLA 当成两条平行、割裂的路线来讲，很少从统一视角去对比分析。
这就导致一个问题：研究者很难在同一坐标系下，同时看清“传统端到端”和“VLA 范式”之间到底有何本质差异、又在哪些方面殊途同归。

为了解决这个认知断层，上海交通大学 AutoLab 团队联合滴滴，参考了 200 余篇相关工作，撰写了最新综述《广义端到端自动驾驶的综述：统一视角》。

论文中，作者提出了“广义端到端”（GE2E）的概念：只要是通过一个整体模型，将原始传感器输入直接映射为规划轨迹或控制动作的方式，都可以被视为 GE2E——至于中间架构是否引入视觉语言大模型，并不是本质区分。

在这一统一框架下，论文把三类看似分散的技术路线收拢到了一张图谱中：

传统端到端（Conventional E2E），
以视觉语言模型为核心的端到端（VLM-centric E2E），
以及两者深度融合的混合式端到端（Hybrid E2E）。

由此构建出一套相对完整、可对比的技术版图，为后来者提供了一个更清晰的“总览视角”。

🧭 1. 引言：从模块化到“通用端到端”

自动驾驶（Autonomous Driving, AD）是一项极其复杂的任务，需要车辆在真实道路环境中进行精确感知、合理预测、可靠规划与安全控制。传统自动驾驶大多采用模块化架构：

感知（检测车、人、灯、路等）
预测（预测其它交通体的未来运动）
规划与控制（生成自车轨迹和控制指令）

这些模块分别设计、分别训练，再通过工程手段组合成一个完整系统。这种方式的优点是可解释、易调试，工程上成熟；但也存在结构性缺陷：

模块之间信息割裂，中间结果丢失细节
误差在流水线上逐级放大（Error Propagation）
各模块优化目标不统一，整体性能受限

随着大规模驾驶数据和深度学习的发展，学界和工业界开始转向端到端（End-to-End, E2E）自动驾驶：直接从传感器输入（图像、激光雷达、导航信息等）预测车辆未来轨迹或控制信号。

图1 端到端自动驾驶范式对比。(a)(b)传统端到端、(c)以大模型为中心的端到端、(d)(e)混合端到端。

近几年，端到端自动驾驶发展出了三条看似不同、实则内在统一的技术路线，如上图：

传统端到端（Conventional E2E）

基于视觉/激光雷达，学习结构化场景表示（如 BEV 占据栅格、向量化地图、对象轨迹等），在统一网络中联合感知、预测和规划。

VLM 中心范式（VLM-centric E2E）
- 以大规模视觉语言模型（VLM / VLA）为核心，将驾驶问题转化为“语言空间中的推理与决策”，由大模型提供高层认知与解释能力。
混合范式（Hybrid E2E）
- 将传统端到端系统的精确、安全与高效率，与 VLM 的开放世界知识与强泛化能力结合起来。
本文提出一个统一概念：General End-to-End Autonomous Driving（GE2E）通用端到端自动驾驶
——只要系统从原始传感输入出发，通过一个整体模型，直接输出规划轨迹或控制信号，无论中间是否显式使用 VLM，都属于 GE2E 范畴。
在这个统一视角下，本文系统梳理：
- 三大范式的典型架构与设计哲学
- 主流数据集与评测基准
- 各类方法在开放/闭环指标上的性能对比
- 共性挑战与未来技术趋势
为了方便读者阅读，作者绘制了以下思维导图，展示了全文的脉络：
图 2 GE2E全文脉络
🔍 2. 传统端到端自动驾驶
传统端到端方法，希望在统一模型中联合优化感知、预测、规划，避免模块化带来的信息损失与误差累积。根据是否显式设计中间任务，主要可分为：
1. 仅规划端到端（Planning-only E2E）
2. 多任务端到端（Multi-task E2E）
此外，在学习策略上，多数方法以模仿学习为主，也开始融入知识蒸馏、强化学习、自监督、主动学习等手段。
2.1 仅规划端到端（Planning-only E2E）
早期 E2E 模型较为简洁，只包含一个从图像 → 控制信号的网络，例如：
- ALVINN：三层小型网络，从摄像头+激光输入预测转向角
- NVIDIA CNN E2E：从前向摄像头图像直接预测方向盘转角
此类方法有明显优势：结构极简、易部署。但很快暴露出局限：3D 场景理解能力不足、决策缺乏多样性、解释性差。后续研究在三个方向上演进：
（1）多模态融合：增强 3D 场景理解
单摄像头难以充分获取空间信息，因此出现多模态融合方法：
- TransFuser：利用 Transformer 融合图像与激光雷达
- MMFN：进一步融合摄像头、雷达、HD Map 等
通过更丰富的 3D 信息，规划结果更安全、鲁棒性更高。
（2）生成式建模：应对轨迹多模态性
现实中，同一场景往往存在多种合理驾驶行为：例如前车缓慢行驶时，可以减速跟车，也可以安全变道。
传统回归式预测会产生“平均轨迹”（既不跟车也不果断变道，反而不安全）。因此，出现基于生成模型的规划：
- 使用扩散模型 / Flow Matching等对轨迹分布进行建模
- 例如：
- - GoalFlow：先预测目标点，再在约束下生成多模态轨迹
  - TransDiffuser / DiffusionDrive / DiffAD 等：将规划视为条件轨迹生成问题
这样可以显式建模“多种备选动作”，并在其上进行选择。
（3）效率优化：面向车载部署
真实车辆上计算资源有限，延迟受安全约束较为严格。为此，一些工作专注于效率：
- Fast-LiDARNet：针对激光雷达进行高效建模和硬件友好优化
- EfficientFuser：用轻量化 EfficientViT 提高融合效率
- DRAMA、GMF-Drive、MambaFusion：使用 Mamba 等结构降低时序建模复杂度
这类方法在保持性能的同时，显著降低了延迟和算力开销。
纯规划端到端的固有缺陷
尽管在工程上简洁，规划-only E2E 有两大结构性问题：
1. 解释性差（Black-box）
- 直接从原始输入到轨迹，不输出中间结构化结果
- 出错时很难定位“是感知错了、预测错了，还是规划策略有问题”
监督信号稀疏
- 只使用最终轨迹监督，未利用丰富的 3D 标注（检测、分割、预测等）
- 模型难以学到真正的“驾驶因果逻辑”，容易出现安全隐患
因此，最新的主流研究逐渐转向多任务端到端架构。
2.2 多任务端到端（Multi-task E2E）
多任务 E2E 将感知、预测、规划 显式建模为多个子任务，但不再作为完全独立模块，而是在统一框架中联合优化。
研究主要聚焦三个问题（可以对应理解为三层能力）：
1. 场景建模与理解（Scene Modeling & Understanding）
2. 多任务协同（Multi-task Coordination）
3. 轨迹规划策略（Trajectory Policy）
2.2.1 场景建模与理解
目标：构建对自动驾驶友好的高效、全局、时序感知的场景表示。
unsetunset（1）高效场景表示unsetunset
早期方法（如 UniAD、P3 系列）多采用稠密 BEV 栅格表示：
- 优点：结构直观，便于统一对接下游任务
- 缺点：计算量大、实例级结构信息弱（物体边界、关系不够明确）
因此，出现了更稀疏、实例化的表示：
- VAD：向量化表示关键场景元素（车道线、边界等），减少占据图的冗余
- SparseAD / SparseDrive：直接对 BEV 上的对象实例建模，不再构建全局稠密 BEV
- GaussianAD：用 3D 语义高斯云表征场景，实现“稠密语义 + 稀疏结构”兼具
核心思想：
不再把整张 BEV 当图片处理，而是把“有用的对象”提炼出来，节省算力并提升决策针对性。
unsetunset（2）空间理解与推理unsetunset
安全驾驶不仅需要知道“有什么”，还需要理解“谁和谁之间在互动、有什么约束”：
- GraphAD：用图结构建模“车–车”、“车–路”之间关系
- DualAD：将动态目标与静态地图的建模解耦，分别优化
- FusionAD：融合 LiDAR + Camera 提升空间几何理解
- UncAD：显式建模环境不确定性，利用不确定度指导预测与规划，增强长尾场景的鲁棒性
unsetunset（3）时间融合与时序推理unsetunset
除了空间，需要理解动态变化：
- 传统：多帧特征叠加，对齐再融合（如 BEVFormer 系列）
- 新方法：
- - ReasonNet：用长期记忆库 + Transformer 对历史信息进行全局推理
  - BridgeAD：显式对齐历史轨迹信息与当前时刻
  - GenAD / DiffAD：将“场景演化 + 预测 + 规划”统一为生成任务（例如生成未来 BEV 图像）
目标：
不只知道“现在是什么样子”，还要综合历史判断“将会发生什么”。
2.2.2 多任务协同（Task Coordination）
多任务 E2E 的优势在于：不同任务间可以互相“借力”。
早期多任务框架中，任务通常是按固定顺序串行执行（感知→预测→规划），任务间交互有限。后续研究主要探索两类协同方式：
（1）人工设计协同结构
根据任务之间的关系，重新设计任务组织方式，例如：
- PPAD：将预测与规划交替执行，体现“自车规划会影响他车运动”的交互逻辑
- TTOG：融合运动预测与规划，使规划可以直接从行为数据中获益
- DriveAdapter：用 adapter 解耦感知 & 规划，避免传统行为克隆中“因果混淆”问题
- DMAD：将语义学习与运动学习分离，减少负迁移，强化有益迁移
（2）统一多任务架构
另一条路线是：让网络自己学“谁影响谁”，不人为规定顺序：
- DriveTransformer / HiP-AD：
- - 将感知、预测、规划的 Query 放入一个统一模块中交互
  - 每个任务的 Query 既与图像/雷达交互，也与其它任务 Query 和历史 Query 交互
  - 最后通过任务专用 head 输出各自结果
这种架构便于扩展更多任务（如地图构建、行为解释），也更利于大规模训练与统一优化。
2.2.3 轨迹规划策略（Trajectory Policy）
即“如何生成安全、舒适、符合法规的轨迹”。在简单模仿学习的基础上，出现了几种重要思路：
（1）后处理优化
- 如 UniAD：先预测占据，再通过数值优化（牛顿法等）在占据约束下修正轨迹
- 优点：可利用 3D 几何信息进一步提高安全性
- 缺点：
- - 破坏端到端的一体性
  - 优化器本身不可学习，上限有限
  - 依赖感知质量，错误会放大
因此出现了可微优化思路：把后处理写成可微层，合并进训练中，让优化过程也被学习。
（2）可训练轨迹评估器（候选选择）
另一类做法：先生成一批候选轨迹，再通过可学习评估器选择最优：
- 使用聚类等方法离线构建“轨迹词典”
- 模型从有限词典中选轨迹 ID，或在其基础上稍作修正
- 如：
- - Hydra-MDP / Hydra-MDP++：多头解码器预测多种候选，配合多指标评估
  - WoTE / World4Drive：基于世界模型预测未来环境状态，对轨迹进行前瞻性评估
这类方法兼顾可解释性与端到端训练能力。
（3）概率规划与扩散策略
针对“规划多模态性”的问题，除了生成模型，还可以在输出层直接预测概率分布：
- VADv2：预测概率分布，并从中采样动作，显著提升闭环表现
- DiffusionDrive / DiffAD / DiffE2E / Consistency 等：
- - 将规划建模为扩散/一致性模型中的条件生成任务
  - 面临的核心问题是：如何保证实时性
  - 例如：DiffusionDrive 通过“截断扩散”大幅减少步骤，在 4090 上达 45FPS
（4）分层/层级规划
一部分研究认为“一次性生成全轨迹”难以适应环境动态变化，因此采用分层策略：
- 先生成高层意图（如 keyframe、意图路线），再细化为高频轨迹
- 代表方法：
- - KEMP：基于关键帧的分层预测
  - ThinkTwice：多解码器堆叠，利用空间–时间先验迭代细化
  - CogAD：粗到细的认知式规划（意图 → 精细轨迹）
  - ARTEMIS：自回归逐点输出，强时间依赖、鲁棒性高
2.3 学习策略：超越“纯模仿”的几条路
绝大多数 E2E 方法都基于行为克隆 / 模仿学习。但单纯模仿存在：
- 对长尾和危险场景泛化差
- 容易发生 Covariate Shift（偏离专家分布后不断累积错误）
因此，许多工作开始探索更丰富的学习策略。
2.3.1 知识蒸馏（Knowledge Distillation）
利用“特权教师” → “普通学生”的范式：
- 教师有额外信息或更强模型能力（如访问真值状态、使用强化学习训练）
- 学生模型则是车辆部署时实际使用的端到端网络
典型工作：
- LBC：教师直接访问环境真值，学生只用视觉输入，通过蒸馏获得更强能力
- Roach：RL 训练的特权 Agent 生成高质量轨迹，给 E2E 学生做监督
- IVMP / DistillDrive：蒸馏多模态规划模型（包含光流、语义地图等中间任务）的表示
目标：弥补端到端模仿学习中监督信号的稀疏性与偏差。
2.3.2 强化学习（Reinforcement Learning, RL）
RL 能通过与环境交互获得新体验，对长尾场景与多目标优化尤其有价值：
- Drive in a Day：早期将端到端驾驶建模为 MDP，用深度 RL 训练
- RDMF / SAPO-RM：利用不确定度或安全约束（如控制屏障函数）指导探索，减少危险试错
- RAD / ReconDreamer-RL / EvaDrive：
- - 结合高保真 3D 场景重建 / 视频生成构建“虚拟世界”做 RL
  - 以 3D Gaussian Splatting / Diffusion 等技术生成大量复杂场景
  - 在此基础上做闭环强化，降低真实世界试错开销
2.3.3 自监督学习（Self-supervised Learning）
目标：大量无标注驾驶数据中挖掘规律，降低昂贵 3D 标注依赖：
- PPGeo：先做几何自监督，再做策略预训练，少量标注即可适配多任务
- LAW：训练“潜在世界模型”，自监督预测未来，提升场景表示与轨迹预测
- UAD：只用 2D 无监督任务替代依赖 3D 标注的模块，在零 3D 标注下超过多种 SOTA
2.3.4 主动学习（Active Learning）
应对 covariate shift 的经典方法是 DAgger，但简单“采样+标注+混合训练”容易退化。
- DARB：指出关键在于“样本质量”而非“数量”，提出关键状态采样——优先标注最信息量、更危险的状态
- ActiveAD / SEAD：从数据多样性、场景信息、BEV 特征等角度设计样本选择策略，在少量标注下逼近甚至匹配全数据性能
2.3.5 其他策略
一些工作从鲁棒性与实用性出发，引入了更多训练机制：
- 对抗训练（如 MA2T）：提升模型对恶意干扰的鲁棒性
- 测试时训练（TTT）（Centaur）：部署时自适应修正
- 分层联邦学习（CRCHFL）：面向车队与边缘计算场景的分布式训练
🧠 3. VLM 驱动的“认知型”端到端驾驶
传统端到端系统在开放世界理解和复杂推理上存在“天花板”：
1. 假设封闭世界：只能识别预定义类别，难以应对新颖/长尾事件
2. 结构上仍是“感知–预测–规划”流水线，不具备统一、可语言化的世界模型与因果推理能力
为弥补这一本质认知差距，近年兴起一类以大规模视觉语言模型（VLM）为核心的范式：
- 把自动驾驶 Agent 看作一个“认知体”：
- - 能看（视觉编码）
  - 能想（语言推理 + 场景建模）
  - 能说（解释决策）
  - 还能驱动规划模块完成精细控制
这一类方法通常采用类似结构（可理解为通用 VLM / VLA 框架的驾驶特化版）：
1. 视觉编码器 + 文本编码器
2. 跨模态对齐模块（将视觉特征映射到语言空间）
3. 大语言模型（LLM）作为“中枢大脑”
4. 动作头（Action Head）或轨迹规划器输出驾驶行为
下面从架构、学习策略与效率优化三个层面，概述这一范式的关键设计。
3.1 模型结构
3.1.1 视觉–语言对齐（Vision–Language Alignment）
核心任务：将高维视觉特征转为 LLM 可以理解的“语义 token”。
两种主流路线：
1. 直接投影（MLP / 线性层）
- 将视觉特征直接映射到 LLM 的嵌入空间
- 结构简单，诸多工作采用（DriveMLM、DriveGPT4v2、DriveMoE 等）
基于 Query 的压缩（如 Q-Former）
- 使用少数可学习 Query 向量，从视觉特征中“提取精华”
- 节省 token 数量，提升效率
此外，针对自动驾驶的空间特性，出现了任务定制化对齐方法：
- BEV-TSR / GPVL：通过检索或 3D 任务预训练，对齐 BEV 特征与文本描述
- MPDrive：避免让 LLM直接生成复杂坐标，改用可视化标记简化空间表述
- Prompting Multi-Modal Tokens / Driving with LLMs：将 LiDAR 点云、向量化轨迹等结构化数据，以“伪 token”或“向量描述”形式输入 LLM
3.1.2 时空理解（Spatiotemporal Understanding）
自动驾驶是“四维问题”：3D 空间 + 时间。
unsetunset（1）增强 3D 空间理解unsetunset
几类典型思路：
- 显式 3D 建模：
- - OmniDrive：加入显式 3D 位置编码
  - Atlas：用 DETR 式结构直接 token 化 3D 场景
  - S4-Driver：用稀疏体素将多视角 2D 特征投影到 3D
- 多模态 3D 融合：
- - LiDAR-LLM、DriveMLM、LMDrive、BEVDriver 等，将 LiDAR 点云与图像融合提升几何准确性
- 对象中心先验：
- - Reason2Drive、MPDrive、DriveMonkey 等，将物体与空间关系结构化输入 VLM，提高对复杂交通互动的理解
- 隐式 3D：靠数据规模“涌现”
- - Cube-LLM 等工作尝试依靠大规模多视角数据，让模型自发习得 3D 直觉
unsetunset（2）时间维度建模unsetunset
- Sce2DriveX、LaVida Drive：使用长时间视频片段 + BEV 全局信息，学习长时程交通事件
- TrackingMeetsLMM：引入目标跟踪信息，为每个动态体建立时间连续的轨迹
- ORION：设计基于 Query 的时间记忆模块（QT-Former），从历史帧中取出重要上下文
3.1.3 推理能力（Reasoning）
VLM 的真正价值，在于推理与解释，不仅是识别。
unsetunset（1）记忆增强推理unsetunset
- 长时记忆：
- - Drive Like a Human、DiLu、LeapVAD、LeapAD、Drive as You Speak 等
  - 把“过去的驾驶经历、用户偏好、规则”存入记忆库，供未来决策参考
- 短时记忆：
- - Agent-Driver、DriVLMe 等，用记忆保持多轮交互的上下文，保证“前后说法一致、行动连续”
unsetunset（2）链式思维（Chain-of-Thought, CoT）unsetunset
将复杂决策拆解为有逻辑顺序的子步骤：
- 结构化逻辑 CoT：Dolphins、CoT-Drive、ReasonPlan、X-Driver、EMMA
- 时空 CoT：FSDrive 强调对“未来若干帧”进行逐步视觉推演
- 工具增强 CoT：Agent-Driver、AgentThink、Receive-Reason-React、DriveAgent-R1
- 动态 CoT：AutoVLA，能根据任务难度决定要不要“多想几步”
- 自反思 CoT：AutoDrive-R²，模型对自己的推理结果做自我审查
unsetunset（3）图式视觉问答（GVQA）unsetunset
将驾驶问题拆解为“对场景图的一系列问答”：
- DriveLM、SimpleLLM4AD 等：
- - 先构建场景图（对象及其关系）
  - 再以问答链形式，按“感知→预测→规划”顺序推理
  - 使决策过程更透明、可检查
unsetunset（4）检索增强生成（RAG）unsetunset
用外部知识库弥补单一参数模型的知识边界：
- RAG-Driver：从历史驾驶案例中检索相似情况
- Driving with Regulation：检索相关交通法规，辅助判定何种行为合规
unsetunset（5）嵌入驾驶知识unsetunset
- Hybrid Reasoning、WiseAD 等，通过加入交通规则、物理约束等，提升安全性与可依赖性
unsetunset（6）面向可解释性的推理unsetunset
- VLAAD、ADAPT、Explanation for Trajectory Planning 等，专门训练模型输出语言解释 + 行为，并保证两者一致性
3.1.4 行为与规划策略（Planning & Action Head）
VLM 输出的“高层决策”要落地为精确执行，常见有两类接口设计：
unsetunset（1）VLM + 控制器unsetunset
- VLM + MLP + PID：如 LMDrive、CarLLaVA、SimLingo、DriveGPT4-v2
- VLM + MPC：LanguageMPC、VLM-MPC
- Empowering：让 LLM 输出安全约束，MPC 负责求解；再把 MPC 的可行性反馈给 LLM，形成闭环
unsetunset（2）VLM + 轨迹规划器unsetunset
- 规则式规划：DriveMLM、ChatGPT as Co-Pilot 等，用 VLM 决定高层策略，规则模块生成具体轨迹
- 生成式轨迹规划：DriveMoE、Diff-VLA、ReCogDrive 等，利用扩散或生成模型生成多条候选轨迹
unsetunset安全校验机制unsetunset
为缓解 VLM“幻觉”与不确定性，通常会在执行前增加安全检查：
- 事后验证/优化：
- - CALMM-Drive：多候选方案 + 分层筛选
  - PlanAgent：使用模拟评估轨迹安全性
  - LeapAD / LeapVAD：通过记忆与反思修正行为
- 训练阶段嵌入反馈：
- - FeD：引入语言化反馈，引导模型逐步纠正行为
unsetunset推理与规划对齐unsetunset
一个核心问题：解释逻辑（CoT）与最终行为是否一致？
- SimLingo：引入语言–动作对齐机制
- RDA-Driver：用对比学习让“正确行为–合理解释”成为正对，其他为负对
- ORION：使用统一潜在空间，让推理结果可以直接指导轨迹生成，实现语义空间与数值空间的深度对齐
3.2 学习策略（VLM 场景）
与传统 E2E 类似，VLM 场景中也广泛使用：
- 知识蒸馏：FeD、VLM-assisted 等
- 强化学习：AlphaDrive、Poutine、ReCogDrive、AutoVLA 等
- 数据高效学习：LDM、ReasonPlan、S4-Driver 等通过自监督及少量标注获得接近全监督性能
3.3 效率问题与优化思路
VLM / VLA 能力强，但大而慢是现实约束。优化路径大致三条：
1. 模型蒸馏：如 CoT-Drive、DSDrive，把大模型的推理能力压缩到小模型
2. 架构优化：
- 早退（AD-EE）、动态分辨率（DynRsl-VLM）、MoE（DriveMoE）
- 异步推理（AsyncDriver）：让规划高频运行，LLM 低频决策
数据与 Token 优化：
- 结构化表达（FastDrive、ReCogDrive、Senna、VERDI 等）
- Token Pruning（AutoPrune 等）
🔗 4. VLM × 传统 E2E：混合范式
传统 E2E 像一个反应迅速、动作精准的“身体”，但在开放世界理解和复杂推理上有限；
VLM 像一个知识丰富、善于推理的“头脑”，但在数值控制与实时性能方面存在“行动鸿沟”。
混合范式就是在两者之间搭建“认知–执行桥梁”。
主要有两大技术路线：
1. 在线协同（Online Coordination）：VLM 在推理时参与决策
2. 离线知识迁移（VLM-Aided Training）：VLM 只在训练时做“老师”，推理时只保留高效 E2E 模型
4.1 在线协同：分层融合架构
整体思路：
VLM 负责“想清楚干什么”，E2E 负责“怎么精细完成”。
融合位置主要有三种：
4.1.1 感知层融合
目标：利用 VLM 的语义能力，增强 E2E 感知模块的语义与注意力。
- VLM-E2E：用 VLM 生成与驾驶相关的文本提示，将其与 BEV 特征融合
- NetRoller：提出“即时首 token 全层获取”机制，快速获取 VLM 中间层信息，提高融合实时性
核心挑战在于：
如何在不大幅增加延迟的前提下，将 VLM 的高维、长时语义有效注入到 E2E 的高频感知流程中？
4.1.2 规划层融合
目前最常见的方式 —— VLM 输出高层命令/策略，E2E 负责输出实际轨迹。
代表工作：
- DriveVLM / Senna：VLM 生成高层指令（meta-action，如“变道超车”），下游规划器条件化生成轨迹
- DME-Driver：引入人类决策逻辑
- FASIONAD：启发自《快思慢想》，设计快/慢两种思考模式
- VLAD / LeAD：在系统架构和更新节奏上做进一步优化（如多时钟频率）
4.1.3 感知 + 规划协同融合
进一步的工作尝试实现“双向信息流与架构共享”：
- DriveVLM：感知输出由 VLM 进行语义校验，VLM 提供的“建议轨迹”反哺规划模块
- SOLVE：共享视觉编码器，VLM 对规划模块进行“初始化与指导”
- Hint-AD：将 E2E 的中间结果输入到 VLM，生成对齐解释，使整体系统更可解释
可以看到，混合架构正从“简单串联”向“深度耦合、互相依赖”演化。
4.2 离线知识迁移：VLM 辅助训练
这种方法的特点是：
- 训练阶段：使用 VLM 作为“教师”，提供额外监督信号（高层动作、语言解释、链式推理等）
- 推理阶段：仅保留传统 E2E 模型，不引入任何 VLM 计算
优点：
- 不增加部署复杂度和延迟
- 能将 VLM 的认知能力“固化”到 E2E 模型参数中
缺点：
- 性能受限于 Teacher VLM 的知识覆盖和 Student 的容量
- 如何保证蒸馏后的策略在开放世界中仍然可靠，仍是难题
4.2.1 规划与动作对齐
代表工作：
- VLM-AD：让 VLM 生成结构化动作标签（如转弯、变道），作为附加标签监督 E2E 模型
- DIMA：将学生模型的潜在表示对齐到“教师模型理解下的结构化空间”
本质是：
让 E2E 模型内部表示“带上语言语义”，使其决策更加可解释、行为更加稳定。
4.2.2 感知–预测–规划全链路对齐
更进一步的方法希望对整个决策链条进行对齐：
- VERDI：用 VLM 的推理链对感知、预测、规划的中间特征分别施加监督
- VLP：对齐 BEV 表征与“理想 BEV 表征”的语义空间
- ALN-P3：提出统一的“感知–预测–规划”联蒸馏框架，要求从输入到输出整条链路都与 VLM 的语言推理一致
目标可以概括为：
不仅要“做对”，还要“想明白为什么要这么做”。
为了更直观地理解各流派的异同，作者整理了主流模型的输入、骨干网络、中间任务及输出形式，欢迎查阅。
📊 5. 数据集与评测基准
GE2E 研究需要同时覆盖：
- 不带语言标注的传统自动驾驶数据集
- 带语言标注的视觉语言自动驾驶数据集
5.1 无语言标注数据集：规划评测
主要用于评估规划与闭环控制：
- nuScenes：多模态感知 + 短时规划，主要用于开放环（Open-loop）评测
- - 指标包括 L2 误差、碰撞率等
- CARLA / Bench2Drive：可控制天气、交通密度、路况，多用于闭环仿真评测
- - 指标：Route Completion、Infraction Score、Driving Score
- NAVSIM：介于开放与闭环之间，通过模拟预测评估真实世界表现，兼顾可靠性与效率
5.2 含语言标注数据集：VLM / VLA 专用
近年来，基于 LLM 辅助构建的数据集大量涌现，用于：
- 场景理解（QA / Caption）
- 行为解释（为何刹车、为何变道）
- 语言指令驱动控制
- CoT 推理、图问答等
按数据来源大致可分为四类：
1. 完全基于 nuScenes 构建（Talk2Car、DriveLM、NuScenes-QA、NuPrompt、SURDS 等）
2. 基于其他开源数据集（KITTI、WOMD、BDD、DRAMA 等）
3. 自采真实数据（LingoQA、MAPLM、CoVLA、DriveAction、DrivingVQA 等）
4. CARLA 仿真生成（DriveMLM、DriveLM-CARLA、DriveCoT、Bench2ADVLM、SimLingo 等）
为了帮助研究者快速上手，我们在综述原文（Table 2）中系统梳理了现有 VL 数据集的规模、任务类型、数据来源及标注方式，如图3所示。
图 3 VL数据集总结
5.3 性能对比与趋势
图 4 规划性能对比图
从图4的公开排行榜来看：
- Open-loop（nuScenes, NAVSIM）：
- - 顶尖方法中传统 E2E 占主导
  - 但带 VLM 的混合 / VLA 方法在某些指标上逐渐追平甚至超越
  - NAVSIM 上已有模型在综合指标上超越人类司机表现
- Closed-loop（Bench2Drive, CARLA Town05）：
- - 传统 E2E 在稳定性和路线完成率上仍然有明显优势
  - 当前 VLA/VLM 方法在“轨迹数值精度 + 对环境反作用的建模”上还有提升空间
整体趋势：
- 传统 E2E：数值精度高、闭环性能好
- VLM/VLA：泛化能力强、解释能力好、在开放世界中表现出色
- 混合范式：有望在两者之间找到更好的平衡点
⚠️ 6. 核心挑战
从 GE2E 统一视角来看，三大范式共同面临以下关键挑战：
6.1 长尾数据分布
现实道路中，大多数数据是“平淡”场景，真正危险或复杂的场景极少：
- 模型在长尾场景表现差
- 合成数据 / 仿真补长尾常有“仿真–现实域差”问题
- VLM 即便有海量世界知识，在特定任务微调中也可能出现灾难性遗忘
目前方向包括：
- 生成长尾场景（仿真 + 生成模型）
- 强化学习探索罕见状态
- 终身学习 / 数据引擎持续挖掘“高价值失败案例”
6.2 可解释性
- 传统 E2E：
- - 多依赖注意力可视化、检测结果等方式做“间接解释”
  - 难以准确反映真正的内部因果逻辑
- VLA：
- - 具备天然“会说话”的优势，可用 CoT 输出推理过程
  - 但“解释与行为可能不一致”的问题非常现实（Hallucination / 对齐不足）
如何确保“想的内容”与“做的事情”真正一致，仍是重要研究方向。
6.3 安全与法规保障
- 仅靠训练时加入安全约束，还不足以应对真实世界的复杂、不确定情况
- 推理时安全模块虽有帮助，却会：
- - 破坏端到端简洁性
  - 过于保守，降低效率和用户体验
如何在安全、效率、舒适性之间找到可量化、可调的平衡，是核心难题。
6.4 实时效率
特别是 VLM/VLA：
- 参数大、推理慢、生成式解码延迟高
- 各类压缩/裁剪/早退策略往往带来能力下降或可靠性损失
在低延迟约束下保持高鲁棒性，仍是开放问题。
🚀 7. 未来趋势与研究方向
综合全文，未来 GE2E 自动驾驶的关键方向包括：
1. 强化学习 + 模仿学习的混合范式
- 先用模仿学习快速获得可用策略，再用 RL 在仿真/世界模型中进行安全的闭环优化
- 面向多目标（安全、舒适、效率、合规）的奖励建模与策略优化
自动驾驶基础模型（Driving Foundation Models）
- 大规模预训练 + 小样本场景微调
- VLA 作为统一“感知–推理–规划”框架，通过世界知识提升对长尾事件的预判能力
智能体系统（Agent Systems）
- LLM 作为“调度与决策中枢”，调用感知、地图、规划等专用子模型（Tools）
- 形成多模块协作的“认知–执行层级结构”，提升解释性与鲁棒性
世界模型（World Models）
- 在潜在空间里“模拟未来”，实现安全的离线探索和规划
- 把“预测未来场景演化”作为一个自监督任务，从海量视频中学习
跨模态融合（Vision + LiDAR + HD Map + 文本）
- 将 RGB 丰富语义与 LiDAR 精确几何、有结构地图高层规则有效融合
- 提升在复杂 3D 环境中的决策可靠性
数据引擎（Data Engine）与自动化闭环
- 从真实路测与用户数据中自动挖掘“模型失败样本”“不确定样本”
- 形成“采集 → 筛选 → 标注/合成 → 训练 → 上路 → 再采集”的闭环迭代体系
✅ 8. 小结
本文从统一的 GE2E 视角回顾并梳理了：
- 三大端到端自动驾驶范式：
- - 传统 E2E
  - VLM 核心 E2E
  - 混合 E2E
- 在架构设计、学习策略、数据与评测上的代表性工作
- 各类方法在开放/闭环场景中的优势与不足
- 面向未来的关键挑战与突破方向
可以看到，端到端自动驾驶正在从：
“只会模仿、不会解释的黑盒控制器”
逐步演化为
“既能看、能想、能说，又能安全开车的智能体系统”。
在这个过程中，基础模型、世界模型、强化学习、VLM/VLA 与工程级数据引擎将是推动下一代自动驾驶系统走向真正“可靠、安全、可解释”的关键技术支柱。
欢迎感兴趣的读者查阅论文原文与开源项目，进一步深入这条正在快速演进的技术路线。
参考：
论文标题：Survey of General End-to-End Autonomous Driving: A Unified Perspective
单位：上海交通大学，滴滴出行
链接：https://doi.org/10.36227/techrxiv.176523315.56439138/v1
项目主页：https://github.com/AutoLab-SAI-SJTU/GE2EAD