CVPR‘25 | SOLVE:视觉语言和端到端网络在自动驾驶中的协同作用

作者 | 自动驾驶专栏 来源 | 自动驾驶专栏

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『端到端自动驾驶』技术交流群

本文只做学术分享,如有侵权,联系删文

  • 论文链接:https://arxiv.org/pdf/2505.16805

摘要

本文介绍了SOLVE:视觉语言和端到端网络在自动驾驶中的协同作用。将视觉语言模型(VLMs)集成到自动驾驶系统中已经在应对学习复杂性、可解释性和常识推理等关键挑战方面展现出前景。然而,由于计算要求,现有的方法往往难以实现高效集成和实时决策。本文引入了SOLVE,这是一种将VLMs与端到端(E2E)模型相结合的新框架,以增强自动驾驶汽车规划。本文方法强调通过共享的视觉编码器在特征级别共享知识,从而实现VLM和E2E组件之间的全面交互。本文提出了一种轨迹思维链(T-CoT)范式,该范式逐步细化轨迹预测结果,从而降低不确定性并且提高准确性。SOLVE通过采用一种时间解耦策略,将高质量的VLM输出结果与E2E实时性能对齐来实现高效协作。在nuScenes数据集上对本文方法进行评估,结果表明,本文方法在轨迹预测准确性方面具有显著提升,从而为更鲁棒、更可靠的自动驾驶系统铺平了道路。

主要贡献

本文的贡献为如下三方面:

1)本文提出了SOLVE,这是一种促进VLM和E2E模型之间协同作用的新框架,强调了将知识和轨迹相结合;

2)本文提出了轨迹思维链(T-CoT),它通过预定义的轨迹库和链式推理来逐步细化轨迹;

3)本文通过大量实验证明了所提出方法的有效性,并且本文框架在nuScenes基准上实现了最先进的开环规划结果。

论文图片和表格

总结

本项工作引入了SOLVE,这是一种促进视觉语言模型(VLM)和端到端(E2E)模型之间协同作用的新框架,强调了将知识和规划相结合。为了应对VLMs以自回归方式直接生成细粒度轨迹所面临的挑战,本文提出了轨迹思维链(T-CoT),它使用预定义的轨迹库和链式推理来逐步细化轨迹。此外,本文还提出了一种时间解耦策略,以促进VLM和E2E模型之间的协作。在nuScenes数据集上的实验表明,本文方法实现了最先进的结果。

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程

端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值