语言:大型语言模型作为自动驾驶的决策者
ABSTRACT
现有的基于学习的自动驾驶(AD)系统在理解高级信息、泛化到罕见事件以及提供可解释性方面面临挑战。为了解决这些问题,这项工作采用大型语言模型(llm)作为需要人类常识理解的复杂AD场景的决策组件。我们设计了认知途径来实现LLM的综合推理,并开发了将LLM决策转化为可操作的驾驶命令的算法。通过这种方法,LLM决策通过引导参数矩阵自适应与底层控制器无缝集成。大量的实验表明,由于LLM的常识推理能力,我们提出的方法不仅在单车辆任务中始终优于基线方法,而且还有助于处理复杂的驾驶行为,甚至多车辆协调。本文提出了在安全性、效率、通用性和互操作性方面,利用LLM作为复杂AD场景的有效决策者的第一步。
我们希望它能成为这一领域未来研究的灵感。项目页面:https://sites.google.com/view/llm-ad
1 INTRODUCTION
想象一下,你正在开车,驶近一个没有信号的十字路口,正准备左转,迎面有一辆车迎面驶来。人类司机本能地知道,根据交通规则,他们应该减速和让行,即使从技术上讲,超速是可能的。
然而,现有的先进的基于学习的自动驾驶(AD)系统通常需要复杂的规则或奖励功能设计来有效地处理这些场景(Chen等人,2023a;Kiran et al, 2022)。这种对预定义规则基础的依赖常常限制了它们泛化到各种情况的能力。
现有基于学习的AD系统面临的另一个挑战是长尾问题(Buhet et al ., 2019)。有限的数据集和采样效率(Atakishiyev等人,2023)都会给现有的基于学习的自动驾驶系统在罕见的真实驾驶场景中做出决策带来挑战。Chauffeurnet (Bansal et al, 2018)证明了这样的限制,即使是3000万个状态动作样本也不足以学习将鸟瞰图像(状态)映射到控制(动作)的最佳策略。
此外,缺乏可解释性(Gohel et al, 2021)是现有基于学习的AD系统面临的一个紧迫问题。成熟的AD系统必须具有可解释性,以获得社会和监管实体的认可,使其能够进行有针对性的优化和迭代改进。然而,现有的基于学习的人工智能系统本质上类似于黑箱,这使得识别其决策过程或理解其行为背后的基本原理具有挑战性(Atakishiyev等人,2023)。这种缺乏透明度的情况可能会对AD系统的实际实施造成障碍。
考虑到上述挑战,一个基本问题出现了:我们能否为自动驾驶系统配备像人类一样思考和驾驶的能力?我们提出的解决方案包括使用大型语言模型(LLM)作为AD系统的“大脑”。最近引入的ChatGPT (OpenAI, 2023)等模型将llm定位为人工通用智能(AGI)的早期版本(Bubeck等人,2023),因为LLM具有显着的紧急能力(Wei等人,2022)和创新技术,如指导跟随和上下文学习(ICL) (Dong等人,2023)。LLM可以像人类一样思考(Fu et al, 2023),并通过结合常识对新场景进行推理,可见的思维过程使其具有很强的可解释性。这些特性使llm成为上述AD系统所面临问题的强大解决方案。
在本文中,我们利用LLM来分析和推理各种场景,使其能够提供高级决策,并通过调整参数矩阵,我们将高级决策转换为数学表示来指导底层控制器,模型预测控制(MPC)。
图1:在环形交叉路口,面对罕见的故障车辆停在路中间的情况,LLM通过常识推理和对高层信息的理解,做出符合交通规则的决策。
图1展示了我们的系统对罕见和复杂场景的强大推理能力,展示了其在理解高级信息、常识推理和可解释性方面的优势。通过定量实验,我们发现我们的系统明显优于现有的基于学习和基于优化的单车辆决策任务方法,总体成本分别降低了18.1%和16.4%。此外,通过定性实验,我们通过有效地解决复杂的任务,如多车联合控制和由文本输入引导的驾驶行为调制,展示了我们系统的令人印象深刻的能力。
本文的主要贡献如下:
(1)我们为LLM设计了一个专门的驱动场景的思维链框架,将分析和决策过程划分为许多子问题,使LLM能够全面参与逻辑推理并得出明智的决策。
(2)我们已经开发了使用LLM提供的高级文本决策来指导底层控制器的技术。这使我们能够构建一个全面的AD系统,直接根据观测数据给出精确的驾驶动作。
(3)在一项突破性的成就中,我们进行了定量实验,最终展示了LLM增强的AD系统相对于现有方法的实质性性能优势。此外,我们还展示了我们的系统在复杂任务中的成功,包括协调多辆车和通过基于文本的输入调节驾驶行为。
2 RELATED WORK
规划和决策的大型语言模型。LLM的显著成就无疑是迷人的,展示了LLM的类人推理能力和对人类常识的概括(Bian et al, 2023;不,2022;Chowdhery等人,2022;欧阳等,2022;Chung et al ., 2022)。在LLM的高级任务中,将自然语言输入转化为可操作的结果至关重要。一个突出的任务是语言到动作的映射,早期的方法利用了时间逻辑(Kress-Gazit等人,2008)和运动原语学习(Matuszek等人,2013)等框架,并演变为导航中指令跟随的最新端到端模型(Ku等人,2020;Kamath等人,2023)和操作任务,使用语言命令的潜在嵌入(Jang等人,2021;Mees等,2023;Lynch et al, 2022)。另一个关键维度是语言到代码的生成,在从编码竞赛(Li et al ., 2022)到指令遵循任务(Liang et al ., 2022)的各种环境中得到了广泛的探索。此外,现存作品Ahn et al (2022);Huang et al . (2022);Liang et al . (2022);Singh et al (2022);Brohan等人(2023);Vemprala等人(2023);Bucker等人(2022)将llm与机器人命令连接起来,并将自然语言指令翻译成特定领域的奖励模型(Lin等人,2022;Goyal等人,2019;Nair等人,2022)。Kwon等(2023);Hu和Sadigh(2023)建议在强化学习(RL)训练期间使用llm来分配奖励值。此外,还探索了在纠正计划中纳入迭代的人类反馈,方法包括使用语义解析器(Broad等人,2017)或轨迹优化方法(Sharma等人,2022)。这些不同的维度强调了LLM在弥合自然语言理解和广泛应用中可操作结果之间的差距方面的多功能性和日益增长的重要性。
自动驾驶。虽然自动驾驶系统在规划和决策方面取得了显著的成功(Kelly & Nagy, 2003;Zhang et al, 2022),在可解释性方面仍然存在问题(Gohel et al, 2021;Arrieta等人,2019;徐,2021;Chib & Singh, 2023)。同时,数据和采样效率的限制(Atakishiyev et al ., 2023)使其在现实环境中容易处理长尾情况,特别是交互场景(Kong et al ., 2023)。最近的研究将LLM及其强大的推理能力集成到AD系统中(Fu et al ., 2023;Chen et al ., 2023b)来解决可解释性问题和复杂的交互场景。然而,Chen等人(2023b)缺乏将推理转化为可操作驾驶动作的能力。Fu等人(2023)解决了这个问题,但是高层次的安全判断和决策过程依赖于固定的规则,而不是利用llm先进推理能力的全部潜力。在这项工作中,我们的目标是开发一个AD系统,其中LLM在高层决策中发挥核心作用。我们将其应用扩展到更复杂的场景,例如导航十字路口和环形交叉路口,为解锁llm作为复杂AD场景决策者的有效性提供了第一步。
3 METHOD
我们开发了一个以LLM为高层决策核心的AD系统,如图2(a)所示。LLM根据提供的提示启动对话,不断从环境中收集信息,进行推理并做出判断。如图2(a)中间所示,从左到右,LLM依次进行:1)识别需要注意的车辆,2)评估情况,3)提供行动指导。然后,系统将这三个高级文本决策转换为数学表示,即观察矩阵、权重矩阵和行动偏差。这些元素作为底层控制器MPC的指令,指示其要采取的具体驾驶动作。
以十字路口左转为例,在图2(b)中,我们展示了如何将上述三个高级文本决策转换为MPC所需的数学表示。LLM选择“车辆26”,我们使用MPC的观测算子创建相应的向量,并将观测矩阵中的其他元素归零,仅关注“车辆26”。根据LLM发出信号的交叉口等待情况,调整权值矩阵,使减速指令优先于轨迹跟随,从而促使MPC按照LLM的指令及时减速。我们通过预定义的规则将LLM的行动指导直接转化为行动偏差。在上述三个方面的数学形式的指导下,MPC完成了停止和屈服的驱动动作。
3.1 BACKGROUND
MPC基于获得的当前测量信息,在每一时刻在线求解一个有限时间开环优化问题,并将得到的控制序列中代价最低的第一个元素应用于被控车辆。
图2:(a)以LLM为高层决策核心的系统流水线。(b)将LLM文本高级决策转换为指导MPC给出具体驾驶动作的数学表示。以十字路口左转为例。
本文在马尔可夫决策过程(MDP)的背景下定义MPC的成本函数,MDP通常用于制定车辆控制问题:(S, A, C, P, p0),其中S为状态空间,A为动作空间,C: S × A→R为成本函数,P: S × A→S为动力学方程,p0为初始状态分布。给定一个成本函数C, MPC找到一个动作序列a1:H = a1,…,使期望累积成本J(a1:H) = t1 = 1c (st, at)最小的aH。代价函数的形式如下:
其中w∈R+是一个非负权,n(·):R→R+是一个二次可微范数,在0处取最小值,r∈R是一个残差项,在r = 0时达到最优性,而ψi是第i个残差项的参数。例如,如果我们希望车辆采用期望的加速度,我们可以设计一个残差项r_acc(acc, ψ) = acc − ψ,其中成本参数ψ表示期望的加速度,并使用l2范数来构造最终的奖励函数:C_acc = w|r_acc|_2。由于驾驶场景的复杂性,设计一组适用于所有驾驶场景的权值和残差项几乎是不可能的(Askari et al ., 2022)。在这项工作中,我们使用一组通用且简单的残差项(包括动作偏差)来调整控制行为,并基于MPC应该执行动作偏差的确定性设计多组权重矩阵。我们使用LLM的力量来给出动作偏差,并选择复杂场景下驾驶的权重矩阵
3.2 CHAIN-OF-THOUGHT
我们使用LangChain (Chase, 2023)作为管理LLM的框架,并为LLM建立结构化的思维过程。这是通过定义一组工具并指定使用它们的顺序来实现的。首先,我们在对话开始的提示中介绍这些指定的工具。随后,在对话过程中,LLM积极调用这些工具来获取相关信息和指导其正在进行的决策过程。LLM遵循这些指导方针来确定下一步的行动方针,直到成功地解决整个问题。
作为一个说明性示例,让我们考虑图3中描述的三个核心工具。这些工具中的每一个都有双重目的,即为LLM提供完成特定推理步骤所需的相关信息和推理指南,同时也指导LLM下一步应该采取什么行动。
此外,这些工具使我们能够改进交付场景信息的方式。我们没有一次向LLM提供所有场景细节,而是只提供LLM思维过程中每个决策步骤所需的相关信息,如图3所示。这种方法代表了一种战略转变,解决了LLM在处理复杂和广泛的数据时面临的重大挑战。它确保了信息的简单性和必要性,从而大大提高了LLM的推理和判断能力。
图3:我们定义的三个核心工具的提示。每个工具的提示都包含信息和指导方针,以帮助LLM完成推理和判断,并开始下一步。
3.3 ATTENTION ALLOCATION
3.3注意分配
开车时有效分散注意力的能力反映了一种类似人类的思维过程。在这种情况下,我们要求LLM系统地评估与周围车辆有关的信息,一次一个。它的目标是辨别这些车辆的意图,并最终确定它们是否与自我车辆的运动产生冲突。具体来说,在时刻t,对于周围车辆的每个元素V t = {V t1, V t2,…},我们有:
式中env^t为场景道路信息,s^t_i为从环境中获取的v^t_i的状态,I^t_i为v^t_i的意图,m^t_i为0或1,表示LLM是否认为该vt_i值得关注。随后,我们根据LLM识别的车辆为MPC创建了一个观察矩阵:
其中,obst i为MPC观测矩阵的第i行,MPCobs为MPC计算观测矩阵的算子。这确保了MPC只关注这些选定的车辆。
3.4 SITUATION AWARENESS AND ACTION GUIDANCE
3.4态势感知和行动指导
在驾驶过程中,态势感知是一个关键的高层决策过程,包括对当前场景的深刻理解,以及常识性推理。在这个框架内,我们让LLM负责从几个选项中选择一个特定的情况,利用在3.3节中概述的注意力分配过程中收集的信息,以及LLM理性判断的结果。定义特征F ti = {S ti, It i, Mt i}来表征与V ti相关的信息,则有:
式中,k为LLM选择的周围车辆数量,Xt为选择的情况。
对Xt的判断作为MPC权矩阵的调整机制。对于每个预定义的情况,我们都建立了相应的权重矩阵Wt。随后,LLM根据其选择的情况提供关于加速和转向的指导: