第一个利用LLM进行闭环端到端自动驾驶

智驾机器人技术前线

于 2024-08-18 13:47:34 发布

阅读量516

点赞数 9

分类专栏：端到端自动驾驶与机器人技术文章标签：自动驾驶人工智能机器学习机器人

本文链接：https://blog.csdn.net/techflowai/article/details/141298842

版权

端到端自动驾驶与机器人技术专栏收录该内容

3 篇文章 0 订阅

订阅专栏

更多优质内容，请关注公众号：智驾机器人技术前线

1.论文信息

标题：LMDrive: Closed-Loop End-to-End Driving with Large Language Models
作者：Hao Shao, Yuxuan Hu, Letian Wang, Steven L. Waslander, Yu Liu, Hongsheng Li
Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.
项目地址：https://github.com/opendilab/LMDrive

2.摘要

尽管在自动驾驶领域取得了显著的进展，但现代方法在遇到长尾不可预见事件和具有挑战性的城市场景时仍然存在困难，并可能发生严重的事故。一方面，大型语言模型（LLM）已经显示出令人印象深刻的推理能力，接近“人工通用智能”。另一方面，以前的自动驾驶方法倾向于依赖有限格式的输入（例如传感器数据和导航航点），限制了车辆理解语言信息和与人类交互的能力。为此，本文介绍了LMDrive，一种新颖的语言引导的端到端闭环自动驾驶框架。LMDrive独特地处理和整合多模态传感器数据与自然语言指令，使车辆能够在现实的指令设置中与人类和导航软件进行交互。为了促进基于语言的闭环自动驾驶的进一步研究，我们还公开发布了相应的数据集，其中包括大约64K个指令跟随数据片段，以及LangAuto基准测试，测试系统处理复杂指令和具有挑战性的驾驶场景的能力。进行了广泛的闭环实验，以证明LMDrive的有效性。据我们所知，我们是第一个利用LLM进行闭环端到端自动驾驶的工作。

3.主要贡献

提出了一个新颖的端到端、闭环、基于语言的自动驾驶框架LMDrive，它通过多模态多视图传感器数据和自然语言指令与动态环境进行交互；
提供了一个包含大约64K个数据片段的数据集，其中每个片段包括一条导航指令、几个通知指令、一系列多模态多视图传感器数据和控制信号。片段的持续时间从2到20秒不等；
提出了基准LangAuto，用于评估将语言指令作为导航输入的自主代理，其中包括误导性/长指令和具有挑战性的对抗性驾驶场景;
进行了广泛的闭环实验，以证明所提出框架的有效性，并分析了LMDrive的不同组成部分，以揭示沿着这个方向继续研究的线索。

4.算法核心框架

在这项工作中，提出了LMDrive，一个能够通过自然语言理解并遵循高级驾驶指令的框架。如下图所示，LMDrive由两个主要部分组成：1）一个视觉编码器，用于处理多视图多模态传感器数据（相机和激光雷达），进行场景理解并生成视觉标记；2）一个大型语言模型及其相关组件（分词器、Q-Former和适配器），它们接收视觉标记和语言指令，以预测控制信号以及判断给定指令是否完成。

image

5.实验结果

image

6.总结

在本文中，我们介绍了LMDrive，一个语言引导的端到端闭环自动驾驶框架。LMDrive结合了自然语言指令和多模态传感器数据，能够在复杂的驾驶场景中实现类似人类的交互和导航。我们还提出了一个语言引导的驾驶数据集，包含大约64K个多模态数据片段及其相应的导航指令。我们建立了LangAuto基准测试，用于评估考虑自然语言指令的自动驾驶系统。通过广泛的闭环实验，证明了LMDrive的有效性，强调了提高自动驾驶车辆与人类及环境交互潜力的可能性。我们的工作为语言基础的闭环端到端自动驾驶领域的进一步探索和发展提供了一个令人鼓舞的起点。

本文仅做学术分享，如有侵权，请联系删文！

更多优质内容，请关注公众号：智驾机器人技术前线

智驾机器人技术前线

关注

9
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
第一个利用LLM进行闭环端到端自动驾驶

尽管在自动驾驶领域取得了显著的进展，但现代方法在遇到长尾不可预见事件和具有挑战性的城市场景时仍然存在困难，并可能发生严重的事故。一方面，大型语言模型（LLM）已经显示出令人印象深刻的推理能力，接近“人工通用智能”。另一方面，以前的自动驾驶方法倾向于依赖有限格式的输入（例如传感器数据和导航航点），限制了车辆理解语言信息和与人类交互的能力。为此，本文介绍了LMDrive，一种新颖的语言引导的端到端闭环自动驾驶框架。
复制链接

扫一扫

专栏目录