华科 & 小米 | ORION:基于VLM引导动作生成的端到端框架~

作者 | 自动驾驶专栏 编辑 | 自动驾驶专栏

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『端到端自动驾驶』技术交流群

本文只做学术分享,如有侵权,联系删文

  • 论文链接:https://arxiv.org/pdf/2503.19755

  • 项目主页:https://xiaomi-mlab.github.io/Orion/

图片

摘要

图片

本文介绍了ORION:基于视觉语言引导行为生成的整体端到端自动驾驶框架。由于端到端(E2E)自动驾驶方法的因果推理能力有限,它在交互式闭环评估中仍然难以做出正确决策。当前的方法试图利用视觉语言模型(VLMs)的强大理解和推理能力来解决这一困境。然而,由于语义推理空间和行为空间中的纯数值轨迹输出之间存在差距,很少有用于E2E方法的VLMs在闭环评估中表现良好。为了解决这个问题,本文提出了ORION,这是一种基于视觉语言引导行为生成的全面E2E自动驾驶框架。ORION独特地结合了聚合长期历史上下文的QT-Former、用于驾驶场景推理的大型语言模型(LLM)和用于精确轨迹预测的生成规划器。ORION进一步对齐了推理空间和行为空间,为视觉问答(VQA)和规划任务实现统一的E2E优化。本文方法在具有挑战性的Bench2Drive数据集上实现了令人印象深刻的闭环性能,驾驶得分(DS)为77.74和成功率(SR)为54.62%,这比最先进的(SOTA)方法高出14.28的DS和19.61%的SR。

图片

主要贡献

图片

本文的贡献为如下三方面:

1)本文提出了ORION,这是一种基于视觉语言引导行为生成的全面E2E自动驾驶框架。得益于生成模型能够表征数据的潜在分布,本文通过生成规划器弥补了VLM的推理空间和轨迹的行为空间之间的差距,使VLM能够理解场景并且引导轨迹生成;

2)ORION中的QT-former有效地捕获了长期时间依赖性,使得模型能够将时间视觉上下文集成到推理和行为空间中;

3)ORION在Bench2Drive闭环基准上表现出色。实验结果还表明,ORION与各种生成模型兼容,这进一步证明了所提出框架的灵活性。

图片

论文图片和表格

图片

图片

总结

图片

本文主要着重于端到端自动驾驶的VLM方法在将VLM的推理空间与用于规划的纯数值行为空间对齐方面所面临的挑战。因此,现有方法同时分析驾驶场景并且输出高质量多模态预测轨迹并非易事。为了解决这个问题,本文提出了ORION,这是一种通过视觉语言引导行为生成的整体端到端自动驾驶框架。本文通过利用生成规划器并且结合长期视觉上下文,有效地连接了视觉-推理-行为空间。大量实验验证了所提出框架的灵活性和优越性,结果表明,ORION在闭环规划评估方面取得了显著改进,其超越了SOTA方法。

局限性:尽管ORION在Bench2Drive的闭环仿真环境中表现良好,但是它受到实时驾驶场景中可扩展VLM的高计算复杂度限制。未来,本文将通过模型压缩和剪枝等技术来降低ORION的复杂度,从而使得模型能够实现实时自动驾驶。

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程

端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

基于python实现的粒子群的VRP(车辆配送路径规划)问题建模求解+源码+项目文档+算法解析,适合毕业设计、课程设计、项目开发。项目源码已经过严格测试,可以放心参考并在此基础上延申使用,详情见md文档 算法设计的关键在于如何向表现较好的个体学习,标准粒子群算法引入惯性因子w、自我认知因子c1、社会认知因子c2分别作为自身、当代最优解和历史最优解的权重,指导粒子速度和位置的更新,这在求解函数极值问题时比较容易实现,而在VRP问题上,速度位置的更新则难以直接采用加权的方式进行,一个常见的方法是采用基于遗传算法交叉算子的混合型粒子群算法进行求解,这里采用顺序交叉算子,对惯性因子w、自我认知因子c1、社会认知因子c2则以w/(w+c1+c2),c1/(w+c1+c2),c2/(w+c1+c2)的概率接受粒子本身、当前最优解、全局最优解交叉的父代之一(即按概率选择其中一个作为父代,不加权)。 算法设计的关键在于如何向表现较好的个体学习,标准粒子群算法引入惯性因子w、自我认知因子c1、社会认知因子c2分别作为自身、当代最优解和历史最优解的权重,指导粒子速度和位置的更新,这在求解函数极值问题时比较容易实现,而在VRP问题上,速度位置的更新则难以直接采用加权的方式进行,一个常见的方法是采用基于遗传算法交叉算子的混合型粒子群算法进行求解,这里采用顺序交叉算子,对惯性因子w、自我认知因子c1、社会认知因子c2则以w/(w+c1+c2),c1/(w+c1+c2),c2/(w+c1+c2)的概率接受粒子本身、当前最优解、全局最优解交叉的父代之一(即按概率选择其中一个作为父代,不加权)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值