0. 资源链接
-
论文: LMDrive: Closed-Loop End-to-End Driving with Large Language Models
-
项目: https://hao-shao.com/projects/lmdrive.html
1. 背景动机
现有的自动驾驶方法存在以下问题:
-
适用场景局限:对常见的简单场景有效,但在长尾事件和城市复杂场景时存在挑战,易导致严重事故
-
交互理解局限:依赖于有限格式的输入(如传感器数据和导航航点),缺乏理解语言及与人类互动的能力
-
闭环评估缺失:先前研究大多针对特定模块进行开环评估,缺乏闭环评测(如累积误差、人机交互和实际执行效果等)
不过近两年大语言模型的突飞猛进为提升自动驾驶性能提供了新的可能性:
-
大语言模型在自然语言理解能力的提升,为系统与人类的高效交互、协作及能力互补上开辟了新的可能性
-
大语言模型已展现出较强的知识推理能力,能够学习并处理复杂场景中涉及逻辑推断的感知/决策等问题
2. 内容提要
-
提出基于语言模型的端到端闭环框架LMDrive,能够协同处理多种传感器数据(多视角图像、点云等)和语言指令