0 Preface
在<智能驾驶系统架构>中描述了当前自动驾驶系统方案的演进过程。随着自动驾驶芯片算力的提升,车端算法推理能力也在不断增强,辅助驾驶的功能也扩展到越来越多的使用场景(城市NOA、车位到车位),自动驾驶的驾驶水平也越来越符合人类驾驶的习惯。
从自动驾驶系统架构的发展可以看出,类比人类感知能力的传感器已经陷入瓶颈,如何更好的使用目前的传感器成为了各家整车厂算法比拼的核心。这一变化从Tesla率先采用纯视觉方案,用算法弥补单一传感器的缺陷的问题开始,同时越来越多的整车厂意识到LLM对于车辆语义理解与知识推理能力的重要提升。
算法的优劣决定了智能驾驶的上限,同时可以降低更多的成本以提高车辆的竞争力,本文主要梳理当前主流智驾算法的发展脉络,以期在这个快速迭代的自动驾驶行业中抓住些变化的脉络和痕迹。
1 智能驾驶算法发展
当全球主要汽车市场开始配置AEB/LDW等L0级别驾驶辅助功能开始,基于不同传感器的技术路线从未统一,摄像头由于其价格低廉,性能稳定并在其他行业中广泛应用而迅速被汽车行业采用。但彼时基于纯视觉的算法尚不成熟,无法解决摄像头在测距、易受干扰方面的物理限制,所以自动驾驶方案从传统的纯视觉感知逐渐演进为多传感器融合的方案。
- 从多传感器到BEV
此过程中由于多传感器坐标系不同导致后续的融合和预测产生瓶颈,于是BEV算法应运而生,BEV算法将所有传感器统一到“BEV坐标系”下,对后续的目标识别、对象分类、对象跟踪以及语义分割产生了很好的效果。
- 从BEV到E2E
但由于感知—融合—预测—规划—控制的路径中,每个模块仅输出简化结果(如检测框、路径点),丢失原始数据的细节;并且前序模块的误差(如漏检行人)会逐级传递,最终影响决策安全性,端到端的单一模型方案逐渐成为主流。
- E2E+VLM
传统的多模态融合主要依赖传感器数据对齐(如摄像头+雷达),而引入视觉语言模型(如CLIP、GPT-4V)后,系统新增了语义理解与知识推理能力,从“感知物理世界”升级为“理解语义世界”。所以学界和产业界迅速推出了E2E+VLM的系统1+系统2的方案。
- VLA
VLA(视觉-语言-动作模型)是一种将视觉感知、语义理解和动作生成深度融合的端到端架构,旨在通过统一模型直接实现从环境输入到驾驶决策的映射。其必要性源于自动驾驶对复杂场景理解和拟人化决策的更高要求。
这其中里程碑式的节点应该算是:BEV算法和E2E+VLM算法的推出。
2 BEV
2.1 BEV
随着传感器配置变得越来越复杂,集成来自不同传感器的多源信息并在统一视图中表示特征变得至关重要。与二维视觉领域中广泛研究的前视图(Front View)或透视图(Perspective)相比,BEV表示没有2D任务中普遍存在的遮挡或缩放问题,可以更好地解决具有遮挡或交叉交通的车辆识别问题;此外,以这种形式表示对象或道路元素将有利于方便后续模块(如规划、控制)的开发和部署。
参考如下论文基于输入数据将BEV感知研究主要分为三个部分:BEV Camera、BEV Lidar、BEV Fusion。https://arxiv.org/pdf/2209.05324https://arxiv.org/pdf/2209.05324
- BEV camera指示用于从多个环绕相机检测或分割3D目标的视觉或以视觉为中心的算法;
- BEV激光雷达描述了从点云输入的检测或分割任务;
- BEV fusion描述了来自多个传感器输入的融合机制,如相机、激光雷达、GNSS、里程计、高清地图等 ;
2.2 E2E
2.2.1 传统非端到端方案的架构与局限
传统的自动驾驶系统采用模块化设计,将任务拆分为多个独立模块(感知—融合—预测—规划—控制),各模块通过接口传递处理结果。典型流程如下:
- 感知模块:处理摄像头、雷达等数据,输出物体检测、车道线识别结果。
- 预测模块:预测其他交通参与者(车辆、行人)的未来轨迹。
- 规划模块:结合地图与预测结果,生成安全路径(如变道、减速)。
- 控制模块:将路径转化为油门、刹车、转向指令。
由于每个模块仅输出简化结果(如检测框、路径点),丢失原始数据的细节,所以产生了一些信息损失,尤其是当前序模块的误差(如漏检行人)逐级传递,最终累积误差会影响决策安全性。另外,模块间依赖人工规则(如变道逻辑),难以应对复杂场景,而调试的时候需要集成各个模块并分别对各个模块进行调试和优化。
这些限制都使得传统的架构局限性很大,尤其是对于OEM来说要解决规则产生的各种Corner Case会产生大量的成本和浪费。
2.2.2 E2E方案
E2E方案通过单一深度学习模型,直接从传感器输入(图像、雷达点云)映射到规划输出(Trajectory),或者更直接的控制输出(方向盘转角、油门),消除中间模块的显式分割。其核心特点包括:
- 数据驱动:模型从海量驾驶数据中学习输入到输出的映射关系,而非依赖人工规则。
- 联合优化:感知、预测、规划任务共享特征表示,全局优化系统目标(如安全、舒适)。
- 端到端学习:输入原始数据(如多目摄像头视频流),输出底层控制信号。
2.2.3 端到端 vs 非端到端
维度 | 非端到端方案 | 端到端方案 |
---|---|---|
架构设计 | 模块化(感知→预测→规划→控制) | 单一模型,端到端映射 |
信息流 | 逐级传递抽象结果(如检测框、路径点) | 保留原始数据细节,直接学习控制策略 |
优化目标 | 各模块独立优化(如检测精度、规划平滑性) | 全局优化最终驾驶目标(如安全、效率) |
场景适应性 | 依赖人工规则处理长尾场景 | 数据驱动,自动学习复杂场景响应策略 |
开发复杂度 | 高(需协调多模块接口与性能) | 低(模型一体化训练与部署) |
可解释性 | 高(各模块输出可单独分析) | 低(黑箱模型,决策逻辑不透明) |
端到端方案通过数据驱动与全局优化,显著提升了自动驾驶系统在复杂场景下的性能,但其可解释性与安全性挑战仍需持续攻关。随着算力提升与算法进步,端到端架构将逐步成为主流,推动自动驾驶向“类人驾驶”体验迈进。
3 Large Model
3.1 E2E+VLM
3.1.1 VLM
E2E模型主要依赖传感器数据输入(如摄像头+雷达),而引入VLM视觉语言模型后,系统新增了语义理解与知识推理能力,从“感知物理世界”升级为“理解语义世界”。
借用《思考快与慢》中的对于快慢系统的定义:
- 系统1:端到端大模型E2E
E2E(快系统)偏直觉,用以处理大部分常规场景,类似肌肉记忆的应激反应来处理一些直觉、快速响应的事情,在驾驶场景中可以直观理解为传感器看到场景紧接着车来做出决策和动作;
其输入的是传感器数据、自车的状态信息以及导航信息,输出动态障碍物、道路结构、通用障碍物 OCC 以及规划好的行驶轨迹。
- 系统2:视觉语言模型VLM
VLM(慢系统)偏思考,负责未知场景或者是复杂场景处理,解决各种复杂路况,解决泛化的问题、未知的问题。
系统时刻在运行,并输出两个决策,系统 1 发挥主要的作用,系统 2 会在复杂场景中起到参考或者咨询的作用,增强系统 1 的决策。在系统2,前视相机时刻观察周围的环境,并且与导航地图的图像进行模态对齐,对齐的结果将被输入到 VLM 的核心——视觉语言模型解码器,同时系统 1 也可以通过 Prompt 问题库向系统 2 随时提问,一起输入到视觉语言模型解码器中;解码器通过自回归输出对环境的理解、驾驶的决策建议以及驾驶的参考轨迹,结果返回到系统 1,辅助系统 1进行轨迹规划。[2502.18042] VLM-E2E: Enhancing End-to-End Autonomous Driving with Multimodal Driver Attention FusionAbstract page for arXiv paper 2502.18042: VLM-E2E: Enhancing End-to-End Autonomous Driving with Multimodal Driver Attention Fusionhttps://arxiv.org/abs/2502.18042
3.1.2 传统E2E方案 vs VLM+E2E方案
维度 | 传统E2E方案 | VLM+E2E方案 |
---|---|---|
核心能力 | 物理感知(位置、速度、3D结构) | 物理感知 + 语义理解(意图、场景上下文) |
数据输入 | 传感器数据(图像、点云、雷达信号) | 传感器数据 + 自然语言(导航指令、路标文本) |
输出目标 | 检测、跟踪、路径规划 | 检测、跟踪、语义推理、人机交互 |
长尾场景处理 | 依赖规则与有限训练数据 | 利用语言模型的开放世界知识泛化 |
交互能力 | 单向控制(车辆→环境) | 双向交互(车辆←→乘客/道路参与者) |
3.1.3 技术挑战
挑战 | 解决方案 |
---|---|
实时性 | 模型轻量化(如蒸馏小型VLM)、边缘计算优化(NPU加速) |
多模态对齐 | 跨模态对比学习(如ALIGN)、共享嵌入空间 |
安全性与伦理 | 引入规则约束(如ASIL-D标准)、对抗样本防御 |
数据隐私 | 联邦学习(本地训练)、脱敏处理 |
多模态是自动驾驶应对复杂物理世界的必然选择,而VLM的引入将感知能力从“物理空间”扩展至“语义空间”,赋予系统人类级的场景理解与交互能力。尽管面临实时性、安全性等挑战,VLM增强的方案已在长尾场景处理、人机交互等方面展现显著优势,未来或成为自动驾驶进化的关键路径。
3.2 VLA
3.2.1 VLA
类似于E2E的思想,VLA(视觉-语言-动作模型)是一种将视觉感知、语义理解和动作生成深度融合的端到端架构,旨在通过统一模型直接实现从环境输入到驾驶决策的映射。
- 语义驱动的动作生成:通过语言模型理解场景语义(如“前方施工绕行”)并指导决策,而非仅依赖几何或规则。
- 人车自然交互:支持乘客用自然语言设定目标(如“避开拥堵路段”),提升用户体验。
- 开放世界泛化:利用语言模型的常识推理能力应对长尾场景(如临时交通管制)。
3.2.2 VLA vs E2E+VLM
架构差异
维度 | E2E+VLM方案 | VLA方案 |
---|---|---|
模型架构 | 端到端模型 + 独立VLM模块(如CLIP/GPT-4V) | 一体化VLA模型(视觉、语言、动作联合建模) |
数据流 | 视觉特征→VLM语义提取→规划决策 | 原始输入→统一特征空间→直接输出控制信号 |
优化目标 | 分阶段优化(感知、语义、规划) | 端到端全局优化(语义与动作联合损失函数) |
交互能力 | 支持语言输入,但动作生成依赖规则/规划模块 | 语言指令直接映射到动作策略 |
性能差异
-
决策效率
-
E2E+VLM:需跨模块传递信息(如VLM语义→规划模块),引入延迟。
-
VLA:共享特征表示,减少中间处理步骤(如Wayve LINGO-1延迟降低30%)。
-
-
长尾场景处理
-
E2E+VLM:依赖VLM的开放域知识,但规划模块可能无法充分利用语义信息。
-
VLA:语言与动作联合训练,直接学习“语义→动作”映射(如“施工绕行”对应方向盘转角)。
-
-
可解释性
-
E2E+VLM:VLM可生成自然语言解释,但与动作生成的关联较弱。
-
VLA:决策过程天然关联语义(如“因检测到行人,减速”),解释更直接。
-
VLA通过语义-动作的深度耦合,为自动驾驶提供了更人性化、自适应强的决策能力。尽管面临安全与工程化挑战,但其在开放场景和用户体验上的优势将推动其逐步成为主流。未来,VLA并非完全替代传统方案,而是与规则引擎、多模态感知形成分层混合架构,在安全与智能之间实现平衡。
4 Summary
自动驾驶算法正在经历百花齐放的快速迭代时期,OEM基于各自的传感器以及自动驾驶系统方案不同,对于算法的要求也大相径庭。自动驾驶数据集和常用的评估指标也加快了自动驾驶算法的更新,目前看来E2E+VLM的落地大大提高了自动驾驶算法的上线,而下一步VLA模型是否可以成为一统天下的方案尚不明晰。