X-Driver:迈向可解释VLM自动驾驶(哈工大&百度)

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『多模态大模型』技术交流群

本文只做学术分享,如有侵权,联系删文

背景

传统模块化自动驾驶系统存在错误传播泛化能力不足的问题,而端到端方法虽简化了系统设计,但在闭环场景中成功率较低。现有基于多模态大语言模型(MLLMs)的框架在闭环评估中易出现幻觉(不合理决策)和鲁棒性不足。为此,X-Driver提出结合链式思维(CoT)推理和MLLMs,旨在提升决策的可解释性闭环性能

  • 论文链接:https://arxiv.org/abs/2505.05098

摘要

X-Driver通过以下核心设计实现目标:

  1. 多模态融合与CoT推理
    基于LLaVA模型,整合视觉(图像)与文本(导航指令)输入,利用CoT提示分解驾驶任务为多步推理(如目标检测、交通灯状态判断),生成结构化决策流程(参见Figure 3)。

  1. 连续图像编码
    采用ViT编码器替代VQ-VAE,保留远距离交通灯等关键场景信息,减少信息损失。

  2. 闭环框架设计
    在CARLA仿真环境中验证,通过实时传感器输入与动态调整实现闭环控制,显著提升驾驶评分(Driving Score)和成功率(Success Rate)。

方法

核心架构

  • 输入:图像(相机数据)与文本(导航指令)的多模态输入。

  • 推理流程

  1. 通过CoT提示将任务分解为子任务(目标检测、交通灯状态、车道信息等)。

  2. 模型整合历史token与当前输入,生成最终决策与轨迹预测(如Table 1所示场景指令)。

  1. 闭环控制:根据预测轨迹动态调整车辆动作(Figure 1)。

关键技术

  • CoT训练数据:通过高质量提示模板引导模型分步推理(如“先定位目标→分析运动→判断风险→更新决策”)。

  • 连续编码优势:ViT编码器在远距离目标检测中比VQ-VAE保留更多细节(如交通灯状态),提升感知精度(Table 2)。

实验与结果

闭环性能

  • 指标:Driving Score(综合路线跟随、速度控制、交规遵守)与Success Rate(任务完成率)。

  • 对比结果

    • 在Bench2Drive数据集上,X-Driver(带CoT)的Driving Score达51.7(vs. UniAD的45.9),Success Rate提升至18.1%(Table 4)。

    • CoT版本在行人避让等场景中显著优于无CoT模型(Figure 4)。

轨迹预测

  • 开环实验:未来3秒轨迹的平均位移误差(ADE)为1.488米,预测精度优于传统方法(Table 3)。

不足与未来展望

局限性

  • 场景泛化性:实验主要基于仿真环境(CARLA),未验证极端天气或高度复杂城市路况。

  • 实时性:MLLM的计算开销可能影响实时响应,需进一步优化推理速度。

未来方向

  1. 多模态扩展:融合激光雷达、雷达等传感器,增强环境感知鲁棒性。

  2. 轻量化部署:通过知识蒸馏或模型压缩技术适配边缘设备。

  3. 跨数据集验证:在真实道路数据(如nuScenes)中测试泛化能力。

前沿的更迭速度很快,有没有一个专业的技术社区一直follow学术界的前沿研究和工业界的量产落地?带着这个想法,我们打造了『自动驾驶之心知识星球』。我们为大家准备了大额优惠,欢迎加入~

4000人专业自动驾驶社区!欢迎扫码加入~

图片

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程

端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值