第一个利用LLM进行闭环端到端自动驾驶

更多优质内容,请关注公众号:智驾机器人技术前线

1.论文信息

  • 标题:LMDrive: Closed-Loop End-to-End Driving with Large Language Models

  • 作者:Hao Shao, Yuxuan Hu, Letian Wang, Steven L. Waslander, Yu Liu, Hongsheng Li

  • Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.

  • 项目地址:https://github.com/opendilab/LMDrive

2.摘要

尽管在自动驾驶领域取得了显著的进展,但现代方法在遇到长尾不可预见事件和具有挑战性的城市场景时仍然存在困难,并可能发生严重的事故。一方面,大型语言模型(LLM)已经显示出令人印象深刻的推理能力,接近“人工通用智能”。另一方面,以前的自动驾驶方法倾向于依赖有限格式的输入(例如传感器数据和导航航点),限制了车辆理解语言信息和与人类交互的能力。为此,本文介绍了LMDrive,一种新颖的语言引导的端到端闭环自动驾驶框架。LMDrive独特地处理和整合多模态传感器数据与自然语言指令,使车辆能够在现实的指令设置中与人类和导航软件进行交互。为了促进基于语言的闭环自动驾驶的进一步研究,我们还公开发布了相应的数据集,其中包括大约64K个指令跟随数据片段,以及LangAuto基准测试,测试系统处理复杂指令和具有挑战性的驾驶场景的能力。进行了广泛的闭环实验,以证明LMDrive的有效性。据我们所知,我们是第一个利用LLM进行闭环端到端自动驾驶的工作。

3.主要贡献

  • 提出了一个新颖的端到端、闭环、基于语言的自动驾驶框架LMDrive,它通过多模态多视图传感器数据和自然语言指令与动态环境进行交互;

  • 提供了一个包含大约64K个数据片段的数据集,其中每个片段包括一条导航指令、几个通知指令、一系列多模态多视图传感器数据和控制信号。片段的持续时间从2到20秒不等;

  • 提出了基准LangAuto,用于评估将语言指令作为导航输入的自主代理,其中包括误导性/长指令和具有挑战性的对抗性驾驶场景;

  • 进行了广泛的闭环实验,以证明所提出框架的有效性,并分析了LMDrive的不同组成部分,以揭示沿着这个方向继续研究的线索。

4.算法核心框架

在这项工作中,提出了LMDrive,一个能够通过自然语言理解并遵循高级驾驶指令的框架。如下图所示,LMDrive由两个主要部分组成:1)一个视觉编码器,用于处理多视图多模态传感器数据(相机和激光雷达),进行场景理解并生成视觉标记;2)一个大型语言模型及其相关组件(分词器、Q-Former和适配器),它们接收视觉标记和语言指令,以预测控制信号以及判断给定指令是否完成。

image

image

5.实验结果

image

image

image

image

image

image

image

image

image

image

6.总结

在本文中,我们介绍了LMDrive,一个语言引导的端到端闭环自动驾驶框架。LMDrive结合了自然语言指令和多模态传感器数据,能够在复杂的驾驶场景中实现类似人类的交互和导航。我们还提出了一个语言引导的驾驶数据集,包含大约64K个多模态数据片段及其相应的导航指令。我们建立了LangAuto基准测试,用于评估考虑自然语言指令的自动驾驶系统。通过广泛的闭环实验,证明了LMDrive的有效性,强调了提高自动驾驶车辆与人类及环境交互潜力的可能性。我们的工作为语言基础的闭环端到端自动驾驶领域的进一步探索和发展提供了一个令人鼓舞的起点。

本文仅做学术分享,如有侵权,请联系删文!

 更多优质内容,请关注公众号:智驾机器人技术前线

  • 9
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值