百度最新X-Driver:基于视觉语言模型的可解释自动驾驶

作者 | 自动驾驶专栏 来源 | 自动驾驶专栏

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『VLM』技术交流群

本文只做学术分享,如有侵权,联系删文

  • 论文链接:https://arxiv.org/pdf/2505.05098

摘要

本文介绍了X-Driver:基于视觉语言模型的可解释自动驾驶。端到端自动驾驶已经取得了显著的进展,与传统流程相比,它具有系统简单、在开环和闭环设置下驾驶性能更强等优势。然而,现有的框架在闭环评估中的成功率仍然较低,突出了其在现实世界部署中的局限性。本文引入了X-Driver,这是一种为闭环自动驾驶设计的统一多模态大型语言模型(MLLMs)框架,它利用思维链(CoT)和自回归建模来增强感知和决策能力。本文使用CARLA仿真环境中的公开基准(包括Bench2Drive)在多个自动驾驶任务中验证X-Driver。本文实验结果证明了X-Driver具有卓越的闭环性能,它超越了当前最先进(SOTA)的技术,同时提高了驾驶决策的可解释性。这些结果突出了结构化推理在端到端自动驾驶中的重要性,并且将X-Driver确立为闭环自动驾驶中未来研究的一种强大基线。

主要贡献

本文的贡献总结如下:

1)MLLM和CoT融合:将思维链推理加入自动驾驶可以进一步缓解模型幻觉问题,显著降低决策错误的可能性;

2)统一的闭环自动驾驶框架:X-Driver支持多模态数据输入,摆脱了对固定格式传感器数据的依赖。这种灵活性提高了系统的泛化能力,使其能够更有效地适应多样化且复杂的驾驶环境。

论文图片和表格

总结

总体而言,本文提出了一种统一的端到端自动驾驶框架,它利用了MLLM来实现决策,同时集成CoT推理以提高可解释性。本文方法通过显式地建模推理过程,有效地缓解了幻觉和决策错误问题,从而生成更一致、更可靠、更符合人类的驾驶行为。此外,本文框架通过提高模型理解复杂驾驶场景、遵守交通法规以及实时做出明智、上下文感知决策的能力,从而显著提高了自动驾驶系统的闭环驾驶性能。

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程

端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值