点击下方卡片,关注“自动驾驶之心”公众号
今天自动驾驶之心为大家分享清华和博世的最新工作—DiffVLA!π0如何用于自动驾驶: CVPR2025端到端亚军方案解读。如果您有相关工作需要分享,请在文末联系我们!
自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
>>点击进入→自动驾驶之心『VLA』技术交流群
论文作者 | Anqing Jiang等
编辑 | 自动驾驶之心
🏆 亮眼成果: 博世中国研究院与清华大学AIR团队的最新研究 DiffVLA,首次将通用机器人控制框架π0的"视觉-语言-动作"范式,成功改造为适应自动驾驶严苛要求的专用系统。该成果在Autonomous Grand Challenge 2025的navsim-v2 public leaderboard中,DiffVLA以45.0 EPDMS的优异成绩,展现了在真实与合成复杂场景下的强大鲁棒性与泛化能力。无论是无责碰撞率(95.71%阶段一,81.27%阶段二)、可行驶区域合规性(99.29%阶段一,88.84%阶段二),还是车道保持与舒适性指标,DiffVLA均表现出色! 传统端到端自动驾驶方法常受限于昂贵的BEV计算、动作多样性不足及复杂场景决策次优等问题。DiffVLA通过稀疏表示、扩散模型与VLM的深度融合,突破这些瓶颈,为自动驾驶的闭环性能树立了新标杆。
论文链接:https://arxiv.org/abs/2505.19381

写在前面 & 笔者的个人理解
架构传承:通用机器人控制的自动驾驶进化
π0证明了生成式VLA(Vision-Language-Action)框架在通用机器人控制的潜力,而DiffVLA首次实现了该范式在动态交通场景中的安全落地。 “如果说π0是‘会思考的机器人’,DiffVLA则是‘懂交规的老司机’:它继承了前者的多模态理解能力,但每一步决策都戴着安全的镣铐跳舞。”
改造难点 :
挑战1:语言指令与物理世界的割裂 :通用机器人环境下的“避开障碍物”指令 → 生成机械臂绕行动作",生成无视人类体感的车速与偏移量的自由轨迹。
挑战2:开放环境与规则约束的冲突:π0依赖纯视觉特征感知世界,这种开放环境下的“自由探索”逻辑,在交通系统中引发事故造成致命事故。
挑战3:生成模型的动作风险失控 在π0框架中,扩散模型生成的机械臂轨迹即使存在抖动(如±5cm偏移),也仅导致抓取失败;但自动驾驶在高对抗场景中,同等自由度的轨迹扩散会引发致命横摆
核心创新点:
通用机器人领域的的应用和自动驾驶领域的应用人有巨大的gap,为了将我们将从π0架构运用到自动驾驶领域,我们对编码器、解码器、数据、损失函数四大支柱展在自动驾驶领域的应用开深度剖析和深度改进,揭示从通用机器人智能体到自动驾驶智能体的底层逻辑。

Encoder模块:我们采用了VLM Encoder 以及Perception Encoder模块,利用多视角图像与基础导航指令生成高级驾驶决策(减速,避让,绕行,变道),全面捕捉交通场景的显式与隐式特征,提升障碍物理解与道路结构分析能力,为后续扩散规划提供精准语义引导,减少语言指令和物理世界的割裂,降低生成模型的动作风险失控。
Decoder模块:采用截断扩散策略与多模态锚点设计,优化多模态驾驶行为建模,显著提升复杂场景下的决策能力。
训练数据:和π0 采用类似策略,在pre-training阶段使用大规模数据对Encoder模块进行pre-training. 在post fine-tuning阶段采用了更多难例采样对action模型进行轨迹优化。
Loss:我们的方案中为了更加直接的生成轨迹使用了diffusion policy 并对轨迹进行L2的监督,其中 表示对轨迹点的reconstruction loss, BCE则是对于轨迹类别的交叉熵损 失。
总体架构
端到端自动驾驶已成为一个重要且快速发展的研究领域。得益于大量人类驾驶示范数据的可用性,从大规模数据集中学习类人驾驶策略具有巨大潜力。现有方法如UniAD、VAD 以传感器数据为输入,通过单一可优化模型回归单模轨迹。进一步探索稀疏表示,提出对称稀疏感知模块和平行运动规划器。然而,这些方法忽略了驾驶行为的内在不确定性和多模态特性。利用生成领域的强大扩散概念,方法能够建模多模态动作分布。通过锚定高斯分布设计加速扩散过程。将VLM与端到端模型结合,提高轨迹规划精度。
尽管现有方法在nuScenes、navsim-v1、nuPlan等知名基准测试上表现稳健,但在闭环评估中实现鲁棒性能并超越记录状态仍是一大挑战。本文重新审视稀疏性、扩散和VLM的概念,提出了一种更全面的方法,并在闭环评估中验证了其性能。我们的框架采用Encoder-Decoder架构,分为三个关键组件:VLM Encoder、稀疏-密集混合Perception Encoder和基于扩散的Planner Decoder。我们在navsim-v2数据集上训练和评估我们的方法,该数据集通过引入反应性背景交通参与者和逼真的合成多视角相机图像,提供了全面的闭环鲁棒性和泛化能力评估。我们的方法在navsim v2竞赛的私有测试集上取得了45.0的EPDMS评分。

Encoder
π0 采用多模态Transformer统一处理RGB图像与语言指令, 实时融合视觉特征与文本语义。我们认为这个方案具有非常好的基础架构优势,但是对于自动驾驶的更复杂场景,更多元的规则约束,在π0的VLM Encoder架构中我们额外在encoder部分引入了Perception Encoder增强模型对环境的基础理解更好利用encoder进一步对场景结构进行细化。具体而言,我们引入了两个并行两大Encoder模块, VLM Encoder 以及 Perception Encoder:
VLM Encoder: 为实现自动驾驶场景中多模态信息的有效处理和融合,我们提出VLM命令引导模块。该模块基于Senna-VLM框架[7],利用多图像编码策略和多视角提示机制实现高效、全面的场景理解。Senna-VLM架构包括四个主要组件:视觉编码器、驾驶视觉适配器、文本编码器和大型语言模型(LLM)。视觉编码器处理来自Navsim [13]的多视角图像序列 ,提取图像特征。驾驶视觉适配器进一步编码和压缩这些特征,生成图像令牌 ,其中 为图像数量, 为每张图像的令牌数, 为LLM的特征维度, 和 分别为图像高度和宽度。文本编码器将用户指令和导航命令编码为文本令牌 ,其中 为文本令牌数。图像和文本令牌随后输入大型语言模型,生成高层次驾驶决策。在我们的实现中,视觉编码器采用CLIP的ViT-L/14 [14],LLM为Vicuna-v1.5-7B [15]。我们遵循标准Senna-VLM配置,处理所有车载相机传感器的图像。VLM命令引导模块生成高层次规划决策,分解为横向控制(例如换道、转弯)和纵向控制(例如加速、刹车)。这些决策通过单热编码机制编码,并与外部驾驶信号(如导航指令)整合。生成的命令通过命令编码器模块处理,为下游基于扩散的规划过程提供语义指导。
Perception Encoder:为了实现对结构化场景的更好理解,我们的encoder模块包含稀疏感知模块和密集感知模块。稀疏感知模块采用的采样策略进行3D物体检测和在线地图生成,而密集模块利用[11]的BEV特征投影方法生成BEV特征空间。稀疏模块输出3D边界框和地图向量,密集模块生成BEV特征向量,两者均被整合到后续轨迹头部。这两个模块的目的是同时利用代理和环境的隐式特征以及显式的物体和地图信息,克服仅使用基于投影或采样的方法构建BEV特征空间的局限性。显式3D边界框包含姿态、尺寸、航向角和速度等标准信息。地图向量以每个元素20个地图点表示。显式物体和地图信息通过多层感知机(MLP)编码生成嵌入。对于隐式分支,BEV网格大小设为128×128,覆盖以自我坐标系为中心的64×64米感知范围。我们聚合同30个代理和一个自车的信息,为后续轨迹扩散过程提供隐式指导。此外,显式物体和地图输出使规划器能够执行碰撞检测和可行驶区域检查,增强了基于特征的轨迹选择。感知模块的训练分为两个阶段。稀疏分支使用3D物体和地图元素的检测损失进行训练。随后,密集分支与轨迹头部一同训练,在稀疏分支训练完成后进行。所有感知分支均采用VoV-99骨干网络。
Decoder
π0 采用了基于score based的生成式模型作为轨迹生成方式,以前缀动作序列为条件自回归预测下一步操作(如关节扭矩或末端位移)。在自动驾驶运行场景更复杂,同事我们考虑到自动驾驶的轨迹预测其实是可以进行分层分解的。人类开车时首先受到high level的信息影响,比如我需要去哪里,下个路口左转还是右转,其次关注周围环境,如果环境复杂则需要降低车速增加注意力,最后是确保车辆遵守车道以及防止和其他车辆发生碰撞。的受到人开车的认知行为规范的启发,我门设计了分层的Transformer对上游的Encoder的信息进行分层输入接入Diffusion Decoder网络。同样为了进一步使模型获得更好的多样性,我们使用了diffusion,就diffuison policy而言,我们使用了截断扩散策略,其去噪过程不再从标准高斯分布开始,而是从一个锚定高斯分布(anchored Gaussian distribution)开始。为了让模型能够学习如何从锚定高斯分布去噪到目标驾驶策略,我们在训练阶段截断了扩散调度(diffusion schedule),仅向锚点添加少量的高斯噪声。用更“接近真实轨迹”的锚点来替代完全随机的起点,从而降低训练和推理过程中的复杂度,并提升生成的轨迹质量。
Data
π0 采用了pre-training+post fine-tuning的方式,其中pre-training阶段最重要的就是diversity,用了一个10000小时规模的数据集训练,其中数据集大部分是自采的(采集方式下一节介绍),仅9.1% 是开源的(Open-emb-x, droid 等),并且其中普遍都是比较复杂的符合任务,所以实质上包含的任务更多。在post fine-tuning阶段数据的要点是动作质量高,即动作要完成地一致且高效。我们采取了和π0类似的策略,同样进行了pre-training和post fine-tuning部分。其中VLM Encoder模块的pre-training使用了一个大规模自动驾驶预训练数据集driveX,Perception Encoder模块则在nuplan数据集上进行大规模预训练。但是我们发现大规模的高质量数据进行训练并不能教会模型如何克服复杂场景下的行为决策问题,因为即使在navsim数据集下具有挑战性的驾驶场景任然使稀少的。为此在post fine-tuning过程中,我们除了主要对关注对轨迹精度的优化以及困难场景的训练,为此我们从openscene以及nuplan数据集中额外挑选了一部分难例添加到数据集中。
Loss
π0 采用了Score base的生成式模型,其中连续动作预测使用flow matching loss监督。形式上讲,其对数据分布 进行建模其中 ,对应于未来动作的ation chunk(就是连续的动作块,一个块代表当下的动作。

我们的方案中为了更加直接的生成轨迹使用了diffusion policy 并对轨迹进行L2的监督,其中 表示对轨迹点的reconstruction loss, BCE则是对于轨迹类别的交叉熵损失。

实验结果

可视化

结论和展望
尽管相比于π0,DiffVLA在自动驾驶领域取得了显著进展,以下方向仍需深入探索:
VLM轻量化与实时部署:当前VLM的计算开销难以满足车载平台严苛的延时与能效约束。未来需探索模型压缩(知识蒸馏、稀疏量化)、硬件感知编译(Transformer算子加速)及车-云协同推理架构,以实现VLM在嵌入式芯片的高效部署。
LLM驱动的闭环决策范式革新:DiffVLA中VLM仅提供开环语义指令,尚未参与实时控制闭环。亟需研究LLM在决策-规划-控制层级的深度耦合机制
安全与评估体系升级:设计动态安全边界(如形式化验证模块过滤风险指令,对抗样本防御机制),构建融合物理约束与语言描述的闭环评测基准,并引入VLM决策合理性量化指标
自动驾驶之心VLA交流群成立啦,欢迎添加小助理微信加群~
添加小助理微信加群
备注公司/学校+昵称+研究方向
自动驾驶之心
论文辅导来啦
知识星球交流社区
近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。
独家专业课程
端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com