小米汽车开源ORION：用VLM重构端到端自动驾驶？首个「视觉-语言」驱动的端到端自动驾驶新范式

程序员笑武

于 2025-04-16 20:14:49 发布

阅读量1k

点赞数 19

文章标签：汽车重构自动驾驶 web安全人工智能网络音视频

本文链接：https://blog.csdn.net/m0_59164304/article/details/147285557

版权

今天我们来聊聊端到端自动驾驶的瓶颈与进化。传统E2E方法（如UniAD、VAD）通过多任务学习整合感知-预测-规划。

但是其面临闭环性能落差：在动态交互场景下表现下滑，暴露对自车状态的过拟合问题；缺乏常识推理：难以处理复杂因果决策（如“施工绕行需提前变道”）两大挑战。

视觉-语言大模型（LLaVA、QwenVL等）凭借****细粒度视觉理解*和*世界知识*，成为自动驾驶的新引擎，但直接应用存在计算冗余*：高分辨率图像产生海量token；数值推理短板：文本化轨迹输出难以精确量化控制量两大问题。

在这里插入图片描述

基于以上问题，小米汽车团队提出ORION框架，首次通过生成式规划器构建VLM推理空间与轨迹行动空间的可微分连接。灵感来自条件生成模型——**既然图像和文本能被统一表征，那么语义推理与轨迹规划为何不可？**就像AI绘画中提示词控制图像生成，ORION让语义指令‘画’出最优轨迹！

一、Bench2Drive评测数据集

Bench2Drive 是首个以闭环方式评估端到端自动驾驶系统 (E2E-AD) 多种能力的基准测试平台。Bench2Drive 包含 200 万帧完整标注的官方训练数据，这些数据由世界模型强化学习 (RL) 专家 Think2Drive 从 13638 个短视频片段中收集而来，并均匀分布在 CARLA Leaderboard v2 中的 44 种交互场景（切入、超车、绕行等）、23 种天气条件（晴天、雾天、雨天等）和 12 个城镇（城市、乡村、大学等）中。

Bench2Drive也是目前一个常用的端到端仿真测试框架。研究人员可以在统一的框架下训练、评估和优化自动驾驶系统，为自动驾驶技术的研发提供重要支持。在CARLA模拟器构建的Bench2Drive数据集中，小米汽车的ORION以****77.74驾驶分（DS）*和*54.62%成功率（SR）****远超SOTA方法（提升14.28分和19.61%），刷新闭环自动驾驶新高度！

ORION 在 Bench2Drive 闭环评估集上的定性结果。棕色、红色和绿色分别代表行动决策、影响驾驶决策的物体以及预测轨迹。

**

二、ORION的破局之道

核心创新：*生成式规划器 + QT-Former时序模块*，构建「视觉-语义-行动」统一空间！

ORION 巧妙地引入了 QT-Former 用于聚合长期历史上下文信息，其受Q-Former启发，通过历史查询+记忆库压缩多帧视觉token，解决VLM的时序建模瓶颈。

VLM 用于驾驶场景理解和推理，将VLM的“语义指令”（如“礼让行人”）转化为可微分轨迹分布，支持多模态概率采样。，并启发式地利用生成模型对齐了推理空间与动作空间，实现了视觉问答（VQA）和规划任务的统一端到端优化。论文项目及代码如下：

Paper：https://arxiv.org/abs/2503.19755
Project：https://xiaomi-mlab.github.io/Orion/
Code：https://github.com/xiaomi-mlab/Orion

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述