对下一代自动驾驶架构的思考

作者 | Loki 编辑 |  自动驾驶之心

 原文链接:https://zhuanlan.zhihu.com/p/1887083966760195478

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『自动驾驶』技术交流群

本文只做学术分享,如有侵权,联系删文

随着Tesla全面转向端到端技术路线并终止AI Day开放分享,全球自动驾驶行业陷入技术演进路径的真空期。在此背景下,理想汽车自2023年起通过「理想科技日」逐步确立国内技术标杆地位——其首创的行业级技术布道平台,成功构建起中国智能驾驶发展的新型知识枢纽。

2024年,理想汽车基于卡尼曼「快思考-慢思考」认知模型,率先提出端到端大模型与视觉语言模型(VLM)的双系统协同架构,为行业提供了首个可落地的类人驾驶技术框架。今年更迭代推出革命性Vision-Language-Action(VLA)模型MindVLA,开创智能体认知新范式。该架构依托三大核心能力重塑自动驾驶边界:

  • 空间智能:通过多模态融合实现厘米级3D场景解构

  • 因果推理:构建驾驶决策的符号逻辑演绎链条

  • 行为涌现:基于环境反馈的自适应策略生成机制

「理想汽车发布下一代自动驾驶架构MindVLA」,2025年3月18日,理想汽车自动驾驶技术研发负责人贾鹏在NVIDIA GTC 2025发表主题演讲《VLA:迈向自动驾驶物理智能体的关键一步》,分享了理想汽车对于下一代自动驾驶技术MindVLA的最新思考和进展。

理想汽车高调推出的MindVLA模型,究竟是革命性突破还是技术迁移实验?答案或许介于两者之间。需明确的是,视觉-语言-动作模型(Vision-Language-Action, VLA)并非自动驾驶原生技术,其本质是机器人领域技术范式的跨界延伸。让我们穿透营销迷雾,回归技术演进本质:

  • 技术基础铺垫

    • VLM(视觉语言模型)的兴起:2015-2022年间,视觉问答系统(VQA)、CLIP、ViT等技术的发展,奠定了多模态融合的基础,使机器能同时理解图像与语言。

    • 机器人控制技术的积累:强化学习(如DQN、PPO)和轨迹编码技术的成熟,为动作生成提供了方法论支持。

  • 早期尝试

    • RT-1的突破:2023年3月,谷歌DeepMind推出RT-1(Robotic Transformer 1),首次将预训练的视觉语言模型应用于机器人动作生成,但泛化能力有限。

  • RT-2的里程碑意义

    • 2023年7月:谷歌DeepMind发布RT-2(Robotic Transformer 2),首次明确VLA范式。该模型通过互联网规模的视觉-语言数据训练,支持自然语言指令直接生成动作序列,显著提升泛化能力(如处理未见过的物体和场景)。

    • 核心技术突破:引入“思维链”机制,结合语言模型的推理能力与机器人轨迹数据,实现长期规划与低级技能融合。

  • 开源与扩展

    • OpenVLA开源项目:2024年6月,斯坦福、伯克利等机构联合推出OpenVLA,基于7B参数的Llama 2和SigLIP视觉编码器,推动VLA技术标准化与普及。

    • 3D-VLA的演进:2024年,麻省理工与伯克利团队提出3D-VLA,引入三维空间表征技术,增强复杂场景的几何感知能力,解决二维模型的局限性。

  • 工业与家庭场景落地

    • Figure公司的Helix模型:2025年2月,Figure发布支持多机器人协作的VLA模型Helix,采用“系统1(高频控制)+系统2(语义决策)”双架构,实现低功耗、高泛化的家庭服务机器人。

    • 特斯拉人形机器人Optimus:结合VLA技术优化动作生成,提升对动态环境的适应性,推动具身智能商业化7。

  • 技术细分与分层架构

    • 分层端到端VLA:2024年后,研究重点转向结合大模型泛化能力与小模型执行效率的混合架构,如TinyVLA通过模型压缩降低算力需求。

    • 多模态数据集推动:谷歌开放X-Embodiment数据集(含160万条多机器人任务数据),加速VLA模型的训练与迭代。


随着VLA神秘面纱的揭开,那么我们迎来了自动驾驶的终极之问:VLA真的是打开大门的万能钥匙吗?

在自动驾驶的竞技场上,全球头部玩家正以截然不同的技术哲学展开角力:

  • Tesla:BEV→Occ→E2E的颠覆之路

    • BEV革命:通过鸟瞰图视角统一多传感器数据,打破传统前视图感知的局限

    • Occ跨越:占据网络(Occupancy Network)实现对未知障碍物的三维空间建模,解决长尾场景覆盖难题

    • 端到端终局:从感知到控制的直接映射,2024年FSD V12已实现纯神经网络驱动

  • 小鹏:中国版Tesla的技术复刻

    • 跟随战略:XNGP系统高度对标Tesla技术架构,BEV+Transformer成为标配

    • 本土化改良:针对中国复杂路况优化博弈算法,但核心框架仍受制于技术路径依赖

  • 华为:稳中求胜的渐进主义

    • 车云协同架构:ADS 2.0采用云端大模型与车端小模型协同,确保安全冗余

    • 高精地图依赖:在无图化浪潮中保持谨慎,通过多模态融合弥补感知短板

  • 理想:VLA范式的激进突围

    • 认知科学赋能:基于卡尼曼双系统理论构建MindVLA模型,分离直觉式反应(快思考)与深度推理(慢思考)

    • 三维空间智能:通过VLA架构实现环境理解、逻辑推演与动作生成的端到端闭环


当前自动驾驶行业正陷入两大核心矛盾:

  • Tesla的技术霸权与跟随者困境

    • 算力鸿沟:Dojo超算集群提供1.1EFLOPS算力,远超国内车企(理想自建算力仅120PFLOPS)

    • 数据飞轮碾压:Tesla 800万辆量产车日均采集数据量超国内玩家年度总和

    • 伪端到端乱象:部分企业将传统模块化系统包装为“分段式端到端”,实为营销概念游戏

  • VLA的技术泡沫质疑

    • 推理延迟瓶颈:当前VLA模型(如MindVLA)在Jetson AGX Orin平台需300ms响应时间,难以满足紧急制动需求

    • 虚实鸿沟难题:仿真环境训练出的逻辑推理能力,在真实交通场景中出现高达37%的决策偏差

    • 成本悖论:搭载VLA系统的域控制器成本增加4000元,与车企降本诉求直接冲突


要判断VLA的技术价值,需回归三个根本问题:

  • 认知架构突破vs工程优化

    • VLA带来的“类人思考”是否真能解决Corner Case,还是仅将问题从代码层转移至模型黑箱?

  • 技术路径的不可逆性

    • 当Tesla用纯视觉端到端实现城市NOA 99.9%场景覆盖时,多模态架构是否仍有存在必要?

  • 商业落地的时间窗口

    • 在2025年L3法规落地前,VLA能否完成从实验室到量产的致命一跃?

破局之路:实现真·自动驾驶的四大支柱

  • 认知架构的重构

    • 双系统协同:借鉴人脑决策机制,构建快响应(System 1)与慢思考(System 2)的混合架构

    • 案例:理想MindVLA通过视觉语言大模型处理常规场景,符号逻辑引擎应对交通规则冲突

  • 数据-算力-算法的三角进化

    • 数据民主化:建立跨企业数据联盟,破解Tesla的数据垄断(如中国汽车数据共享联盟)

    • 算力平民化:基于国产芯片(如地平线征程6)开发量化版VLA模型,推理效率提升5倍

  • 仿真-实车的闭环验证

    • 4D仿真革命:通过时空一致性建模,将VLA训练效率提升80%(理想DrivingSphere实测数据)

    • 影子模式升级:在量产车部署决策对比系统,持续优化VLA在真实场景中的泛化能力

  • 成本-性能的平衡艺术

    • 模块化部署:将VLA拆分为云端预判与车端执行,降低硬件依赖

    • 功能分级激活:基础版提供车道保持,高阶版通过OTA解锁城市NOA,实现技术价值分层变现


终局判断:没有银弹,唯有进化

VLA不是自动驾驶的终极答案,而是认知革命的关键台阶:

  • 短期(2024-2026):VLA将主要解决特定场景的推理瓶颈(如施工区绕行决策)

  • 中期(2027-2030):与神经符号AI融合,形成可解释、可审计的混合架构

  • 长期(2030+):融入具身智能体系,成为智慧城市交通网络的细胞单元

当技术狂热退潮,唯有那些在架构创新、工程实现、商业落地间找到平衡点的玩家,才能最终摘下自动驾驶圣杯上的明珠。

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程

端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值