论文阅读:ChatGPT as Your Vehicle Co-Pilot: An Initial Attempt

ChatGPT as Your Vehicle Co-Pilot: An Initial Attempt

论文链接:https://ieeexplore.ieee.org/abstract/document/10286969

💡摘要

人机协作中最具挑战性的问题之一是人类意图与机器理解和执行之间的差距。大型语言模型(LLM)在解决此类问题方面表现出了卓越的能力。在本文中,我们设计了一个通用框架,将LLM嵌入作为驾驶的车辆“Co-Pilot”,它可以根据提供的信息完成满足人类意图的特定驾驶任务。同时,定义了利用工作流来处理人与车之间的交互,并引入记忆机制来组织任务中涉及的信息。提出了面向专家的黑盒调整,以提高Co-Pilot的性能,而无需微调或训练LLM。在实验中,Co-Pilot被应用于两种不同的任务,即路径跟踪控制和轨迹规划。Co-Pilot通过选择合适的控制器或规划特定的轨迹来调整车辆的运行条件以适应人类的意图。进行仿真测试来评估所提出模块的性能和通用性。结果表明,Co-Pilot 仅基于自然语言处理就可以完成大部分任务,尽管它并非完美无缺。最后,讨论了人机混合智能以及LLM在自动驾驶中的进一步应用。我们相信这样的框架在自动驾驶汽车领域的进一步应用具有广阔的潜力。

索引术语——大语言模型;人机交互;并行学习;自动驾驶

📉Introduction

人机协同驾驶是指在驾驶过程中协调人类驾驶员和车辆达到顺畅的配合。作为智能汽车领域的一个重点关注领域,此类系统的开发旨在确保安全[1],[2],提高交通效率,并为驾驶员和乘客提供更好的乘坐体验[3]。例如,高级驾驶员辅助系统(ADAS)可以从车道保持、碰撞警告和巡航等多个方面辅助人类驾驶员[4][5]。此类系统已得到广泛应用,大大减轻了驾驶员的工作量。由于全自动车辆的技术限制等因素[6],人机协同驾驶车辆极有可能在不久的将来成为交通的主流。

然而,当前的人机协同驾驶系统存在一些共同的缺点。在人类方面,基于现有模型和算法构建的机器无法彻底理解人类的意图[7]。在车辆方面,机器仅具备人类常识所不具备的知识或技能来控制车辆,导致在没有预定义程序支持的情况下表现不佳[8]。此外,目前的协同驾驶系统只是充当“奴隶”,而不是进行协作,为人类驾驶员执行预先定义的任务,导致系统的适应性较差。这三大缺点在人与机器之间产生了“鸿沟”,极大地限制了人与系统之间的交互[9]。弥合“差距”已成为人机交互(HMI)领域的重点研究热点。

已经进行了多项研究来改善这些缺点。例如,开发了在人与机器之间传输信息的更好方法,促进了更有效的交互方式[10]。还涉及人工智能(AI)的更广泛应用,增强系统感知物理世界和协助人类的能力[11]。然而,仍然缺乏能够解决所有这些问题的系统解决方案。

大型语言模型(LLM)是人工智能领域最值得关注的突破之一[12][13]。受益于其大规模和训练中使用的数据量,这些模型在以下所有方面都大大优于现有模型。

  1. 了解人类的意图。LLM在自然语言的理解方面表现出超强的能力,他们可以通过解释和演绎来理解人类的意图甚至情感。其中的代表之一是 ChatGPT,这是一名LLM,可以通过生成连贯且多样化的响应,就各种主题与人类进行自然流畅的对话。它为 HMI 中现有的挑战(例如协作和适应)提供了可能的新解决方案。

  2. 拥有common sense。LLM利用培训中涉及的大量知识,可以检索并自然地利用各个领域的专家信息。例如,Codex 是一个LLM,可以为各种编程语言和任务生成高质量的代码[14]。

  3. 通过调整实现高适应性。人们开发了各种调整方法来进一步提高LLM的性能[13]、[15]-[17]。例如,该场景中广泛使用的(黑盒)调整 LLM 的最流行方法之一称为语言模型即服务(LMaaS),这是一种通过 LLM 进行少样本学习的无衍生方法优化预置到 LLM 输入的一系列软提示标记,而不需要它们的梯度/反向传播 [17]。这些调整方法进一步使模型适应不同的任务,并有效地增强其在金融[18]和生物医学[19]、[20]等专业领域的表现。也有一些LLM在智能交通领域的应用尝试,表明一些LLM对智能汽车和自动驾驶有基本的了解[21]-[24]。

总之,这些进步使LLM成为解决人机协同驾驶中现有挑战的新工具,能够处理各种任务。考虑到各种任务中车辆动力学和交通场景的复杂性[25],一个系统的解决方案,即支持LLM的统一框架结构和调整LLM的工作流程,是重要且迫切需要的。这样的解决方案可以帮助组织特定驾驶任务所需的特定领域知识,并指导LLM完成这些任务。

因此,本研究初步尝试利用LLM作为车辆的驾驶“Co-Pilot”,涉及到人机协同驾驶的具体任务。具体来说,Co-Pilot根据提示中提供的信息调整车辆运行条件以适应人类意图。作为系统解决方案的一部分,我们设计了一个嵌入LLM的人机协同驾驶通用框架,如图1所示;参见第三节的解释。它为LLM与人类和车辆交互提供了标准化的结构和程序。基于之前对智能交通领域记忆的研究[26]、[27]和生理认知结构[28],我们设计了一个Co-Pilot记忆模块来组织完成任务所需的所有信息。为了提高Co-Pilot在详细任务中的表现,引入了基于黑盒调整方法[17]的面向专家的提示调整,其中我们利用专家的主观注释来评估任务表现,通过基于记忆的细化记忆来增强提示。推理结果,并利用LLM进行小样本学习。
在这里插入图片描述

图 1. Co-Pilot:嵌入LLM的人机协同驾驶通用框架。绿线代表使用工作流程:人类随时发出具有风格偏好的命令,这些命令被编码为token以及包含支持信息的记忆并输入到LLM中。在被LLM理解后,输出也是token形式的,然后被解码为特定于领域的语言并输入到特定的车辆任务中。引入Co-Pilot故障安全机制是为了避免LLM潜在的错误响应引起的安全问题。黄线代表 Co-Pilot 优化其性能的调整工作流程。它是使用面向专家的黑盒调整方法进行的。提示内容主要是记忆内容,根据专家对系统性能的反馈进行调整。

作为详细的应用示例,我们分别为第四节和第五节中的两个不同任务实现了 Co-Pilot 模块。这些任务的背景可以在第二节中找到。为了清楚地展示该过程,解释了具体的使用工作流程和调优工作流程,然后进行了相应的实验。在第四节中,我们实现了用于路径跟踪任务的Co-Pilot模块[29],以解决人机协同驾驶的差距,其中该模块充当车辆运动控制器选择器,使性能与乘客的意图保持一致。在第五节中,我们介绍了Co-Pilot的轨迹规划任务的实现。这两部分的实验表明,在很多情况下,即使没有任何形式的数值计算,Co-Pilot也能正确理解驾驶员的意图和反应。最后,第六节对Co-Pilot进行了深入的讨论,包括它与并行学习框架的关系、进一步应用的前景和挑战。第七节总结了整篇论文。LLM的选定提示和回应可以在附录中找到。本文使用的术语如表 I 所示。
在这里插入图片描述

❓Backgrounds

A.路径跟踪控制

自动驾驶任务通常具有包含感知、规划和控制层的分层结构[30]。控制层的路径跟踪问题旨在使车辆遵循预先定义的轨迹,同时满足速度、航向和安全的要求。这是通过基于车辆状态估计以及规划层提供的连续路径和速度生成转向、油门和制动命令来完成的。

路径跟踪问题的解决,如图2所示,可以采用由两个模块组成的闭环控制系统,即参考状态确定模块和控制模块[31]。参考状态确定模块根据车辆当前状态和预定路径计算目标路径,控制模块设计同时考虑参考状态和实际状态的反馈控制器,帮助系统达到稳定状态或轨迹目标路径。本文主要关注以下四种反馈控制器。
在这里插入图片描述

1)非线性模型预测控制(NMPC)[32]

是一种反馈控制器,它使用系统的非线性模型在这里插入图片描述
和优化算法,通过最小化局部性能来生成有限水平 i 中的最优控制命令索引J如下。
在这里插入图片描述

其中X (.) 是系统状态,Xr(.) 是期望状态,u(.) 是控制变量,f(.) 是系统动力学,是在不同时间点 k 评估的向量函数。 P表示预测状态的数量,M表示控制变化的步数。 Q 和 R 是权重矩阵。

NMPC考虑了系统的约束和非线性,通过在目标函数中使用不同的权重因子来处理多个目标和权衡,但计算成本较高,对模型的精度要求较高。

2) 斯坦利控制器

Stanley控制器[33]、[34]是一种反馈控制器,它使用几何方法根据交叉轨迹误差ect和车辆与目标点之间的航向误差 φ e来计算转向控制变量Us 。
在这里插入图片描述

其中 c 是正增益。 Stanley简单、高效、对参数不敏感,但不能考虑车辆动力学和约束。

Optimal Single-point preview Controller

最优单点预览控制器[35]是一个反馈控制器,它实现单点模型,通过最小化当前预览间隔 (t,t+T )上的局部性能指数 J 来找到速度控制变量 Uv ,如下所示。
在这里插入图片描述

其中p () 是预览的路径输入,y() 是预览的植物输出。最优控制变量uvo可以用当前非最优且对应的提前T * 秒的非零预览输出误差来表示。
在这里插入图片描述

其中K是驾驶员根据当前车辆状态预测未来车辆响应的能力,ε是预览误差信号,mT 是常数观测向量,I是车辆转动惯量,f是系统矩阵。

控制器可以利用更多来自参考路径的信息来提高车辆的跟踪精度和稳定性,但它需要参考路径的先验知识,并且在复杂多变的环境中可能会失败。

Proportional-Integral-Derivative (PID)

比例积分微分(PID)[36]是一种经典的反馈控制器,它使用三项根据实际状态与期望状态之间的误差e来计算控制变量u。
在这里插入图片描述

其中 Kp、Ki 和 Kd 分别表示比例增益、积分增益和微分增益。它简单且易于实现,但难以调整参数,并且对于非线性和不确定系统,其性能可能会下降。然而,PID控制器无法处理多个控制目标,这可能导致在某些情况下性能不佳或不稳定。

总而言之,我们可以使用上述控制器来提供跟踪控制场景的解决方案。然而,这种传统的解决方案没有考虑乘客和驾驶员的驾驶或乘坐偏好,并且单个反馈控制器的性能无法始终符合乘客的期望。

Trajectory Planning

轨迹规划是自动驾驶系统的重要组成部分,因为它决定了车辆安全高效到达目的地所遵循的路径[37]。该任务涉及动态规划车辆轨迹以响应不断变化的驾驶环境[38],同时考虑道路几何形状、交通法规和车辆物理限制等因素。轨迹规划问题可以分解为多个子问题,包括路径规划、速度规划和路径速度迭代。通过综合解决这些子问题,可以为道路自动驾驶生成安全高效的轨迹。

轨迹规划中涉及的常见操作之一是双车道变更 (DLC)。它是评价车辆避障性能、测试车辆在极端驾驶条件下的稳定性、操控性和响应能力的标准测试[39]。它还可用于测试 ADAS 和自动驾驶系统,测量其在复杂情况下规划和执行安全高效轨迹的能力。

📚THE CO-PILOT FRAMEWORK

如图 1 所示,所提出的 Co-Pilot 遵循由通用框架标准化的通用结构。本节重点介绍 Co-Pilot 框架的一般结构和两个工作流程,包括将框架实现为特定任务的功能模块的一般程序。

A.Framework Structure

我们的框架结构主要由五个部分组成,即编码器、内存、嵌入式LLM、解码器和Co-Pilot故障安全机制。

编码器:编码器用于自动形成LLM的提示(例如英语),组织所有信息以指示LLM生成有效的响应。具有定义功能的任何模块(软件、程序甚至硬件)都可以称为“编码器”。人类意图和记忆被强调为主要输入。

记忆:记忆一般是指用于任务的信息集合,包括过去的信息、一般知识等。这种机制已经应用于自动驾驶领域。遵循认知架构[40],语言代理将信息明确地组织到多个记忆模块中,每个记忆模块包含不同形式的信息。根据心理学理论,记忆可分为符号工作记忆和符号长期记忆。

工作记忆反映了智能体当前的情况,存储了智能体最近从多种模式获得的感知输入,例如文本语言(自然语言输入)和图像语言(视觉输入)、目标以及中间、内部推理的结果。

长期记忆进一步分为以下三种不同的类型。生产系统本身存储在程序存储器中,即,这是一组作用于工作存储器来决定代理行为的规则。语义记忆存储有关周围环境的事实,而情景记忆存储智能体过去的行为。调整主要通过向长期记忆写入和更新信息来进行。

**嵌入式LLM:**提示通过LLM开发人员提供的API发送给LLM。我们需要强调的是,我们研究中使用的LLM是可用的普通模型,即它们没有针对任务进行预先调整或调整。

**解码器:**接收到响应后,解码器根据预设的响应格式对其进行解码。通常,响应将包含针对车辆的特定命令,该命令将由车辆的低级模块执行以完成交互。

**Co-Pilot自动防故障机制:**当前LLM的缺陷之一是,由于其概率模型的性质,它们可能会提供错误的响应。这可能会导致智能车辆性能不佳甚至出现危险。为了解决这个问题,框架中引入了故障安全机制,确保可以过滤来自LLM的错误指令以确保安全。需要指出的是,这种机制可以适应其他方法,例如任务设计或面向专家的调优,而不必作为框架内的独立模型出现。

Co-Pilot主体机构包含了以下模块:

1. 编码器:将必要的信息组成提示,通过专用API发送至大语言模型。

2. LLM:大语言模型,本工作使用ChatGPT(GPT3.5-turbo-0301)。

3. 解码器:将自然语言回应解析为指令或数据,用于车辆的交互与控制。

4. 保险机制:考虑到大语言模型作为概率模型的本质,现阶段难以杜绝其在回答中出错,故预留该保险机制防止存在明显错误的指令影响车辆运行。

5. 记忆机制:保存Co-Pilot完成任务所必须的数据及其他信息,作为输入的重要组成部分,可在工作过程中被实时更新。

B.The Workflows of the Framework(框架的工作流程)

Co-Pilot框架的两个工作流程描述如下:

使用工作流程:Co-Pilot框架旨在适应涉及人机协同驾驶的不同任务。为了确保该框架能够顺利地应用于不同的任务,我们提出了一个实现功能性Co-Pilot模块的工作流程,该工作流程分为两个步骤:

系统设计:根据指定的任务,我们指定Co-Pilot模块的功能,包括Co-Pilot与人类和车辆互动的方式。还设计了Co-Pilot的支持模块。专家们还评估LLM潜在失败的结果,并确定Co-Pilot自动防故障机制的形式。

模块实现:接下来我们详细实现Co-Pilot模块,主要涉及编码器和解码器。用户需要补充存储器中的各种内容。长期记忆中的程序记忆是必要的,并且应该包含完整的任务描述。语义记忆和情景记忆是可选的补充,它们分别来自用户的知识和过去的实验经验。然而,添加这些可以让Co-Pilot表现得更好。工作记忆也是必要的,用户需要结合其他支持模块来存储当前的感知信息。还可以选择性地添加内部推理结果。

这两个步骤在人类(特别是乘客或驾驶员)、Co-Pilot和车辆之间建立了闭环。例如,Co-Pilot调整车辆运行条件以适应人类意图,而人类可能会针对调整提供新的反馈。

调优工作流程:为了让Co-Pilot更好地适应人类意图,我们提出了一种称为“面向专家的黑盒调优”的调优方法。其底层思想与黑盒调优相同,即大型模型服务商只进行模型推理,为用户提供算力,用户根据推理结果调整提示来优化任务性能,从而驱动任务性能的提升。用于执行小样本学习的大型语言模型。与黑盒调优不同,我们使用专家的主观注释而不是普通的注释样本来评估任务性能。

具体来说,我们让领域专家参与调优过程,他们根据特定的评估标准提供反馈和建议,以提高Co-Pilot的性能。该调整基于对Co-Pilot长期记忆的修改。

首先,我们估计 Co-Pilot 在所选任务或领域上的当前表现,并将其与实验结果进行比较。我们找出Co-Pilot的差距和弱点,并根据专家的经验和期望提出优化建议。

其次,我们根据优化建议更新Co-Pilot的长期记忆。例如,如果Co-Pilot无法理解对任务或领域至关重要的概念,我们会在语义记忆中添加该概念的详细解释。如果Co-Pilot缺乏与任务或领域相关的经验或示例,我们会将它们添加到情景记忆中。如果Co-Pilot需要学习任务或领域所需的新技能或程序,我们会将其添加到程序记忆中。

最后,我们在Co-Pilot更新的长期记忆上随机生成的子空间中执行无导数优化。我们再次评估 Co-Pilot 在所选任务或领域上的表现,并重复调整过程,直到获得满意的结果。

通过这种方式,可以利用专家的知识和经验来提高Co-Pilot在复杂和动态任务中的表现。

❗THE CO-PILOT FOR PATH TRACKING CONTROL(路径跟踪控制的Co-Pilot)

在本节中,我们基于第三节中提出的结构和工作流程实现了详细的Co-Pilot系统。作为初步尝试,Co-Pilot系统专门针对路径跟踪控制任务而设计,它结合了多个传统控制器的控制效果,并提供与人类对即将到来的道路指令相匹配的在线控制器决策。首先提供任务概述,然后详细介绍 Co-Pilot 系统的实现。还描述了该任务的利用工作流程和调整工作流程的实现。实验结果也在本节末尾给出。

A. Task Background and Platform Setting(任务背景及平台设置)

具体来说,针对本研究,我们搭建了一个基于Simulink和CarSim联合仿真的实验平台。 Simulink 负责 Co-Pilot 系统的实施,CarSim 提供环境和车辆的模拟。例如,本研究中使用的赛道来自官方 CarSim 库,作为模拟环境。赛道总长 2273.8471 米,有 10 个弯角,包含在全局坐标系 (Ox,Oy)中定义的 2261 个航路点。图 3 提供了赛道的全面概览,包括道路曲率的详细信息。为了方便后续实验模拟人类需求并在线选择控制策略,赛道被分为五段,每段500点。 (1-500、500-1000、1000-1500、1500-2000、2000-2600)。
在这里插入图片描述

我们实验中使用CarSim提供的A级车辆模型,如图4所示。车辆的控制由油门百分比、方向盘角度和制动状态提供。
在这里插入图片描述

B. Systematical Design of the Co-Pilot(Co-Pilot系统设计)

基于路径跟踪控制任务和Co-Pilot目标中涉及的传统解决方案,我们将Co-Pilot任务指定为从备用控制器中选择最合适的控制器。这确保了控制器不仅表现出最佳性能,而且还保持与人类意图相协调。 Co-Pilot框架用于完成该任务,形成了实验平台中所使用的Co-Pilot系统。在传统解决方案的基础上扩展现有的闭环控制系统,Co-Pilot模块将动态接收当前的人类请求和道路状态,并相应地选择匹配的控制器。在此过程中,原系统的参考状态确定模块和反馈控制器模块将继续原来的工作。这些模块的详细信息可以参考第二节B部分。

这些模块构成了一个功能性Co-Pilot系统。它提供了宝贵的指导,确保车辆性能与人类意图保持一致。因此,我们将结合Co-Pilot系统的算法称为“基于Co-Pilot的跟踪控制”。有关更多详细信息,请参阅算法 1。
在这里插入图片描述

对于Co-Pilot故障安全机制,只要LLM做出有效选择的控制器响应,就不需要干预,因为所有备用控制器都可以达到基本的安全要求。如果 LLM 响应无效内容,则意味着解码器无法按预期对其进行解码,并且需要故障安全机制。在这种情况下,控制器的选择将保持不变,以确保系统正常运行。这是在Decoder内部通过判断内容格式来实现的。

C. Co-Pilot Utilization(Co-Pilot Utilization)

**编码器:**编码器遵循标准化的编写规则将输入信息组合成提示,然后使用套接字API连接到LLM服务提供者。编码器的输入可以是人类的意图和记忆。其中,“人类意图”是模拟实时交互的用户定义输入。例如,用户可以说“我太累了,我需要更多的稳定性。”以表明他们对更平稳的驾驶方式的偏好。 “记忆”为Co-Pilot做出决策提供了必要的信息。

**记忆:**工作记忆接收现有的感知输入,在这种情况下反映了前方道路的曲率信息和期望的速度。程序存储器描述了控制器选择任务,并将LLM的答案格式指定为控制器ID。语义记忆存储控制器的特征。情景存储器存储来自先前选择的不同控制器的车辆反馈状态。程序记忆、语义记忆和情景记忆可以通过Co-Pilot调整来更新。记忆和人类意图被编码并作为提示一起输入LLM。详细的提示示例可以参见附录A。

**嵌入式LLM:**在本研究中,所有实验中使用的LLM都是基于GPT 3.5的ChatGPT。该型号的正式版本是“gpt-3.5-turbo-0301”。

**解码器:**解码器接收来自套接字的响应并解码控制器ID。模拟车辆中的相应控制器被激活以应对即将到来的路段。还可以包括关于为什么选择该控制器以及它如何满足用户意图的简明理由,并将其提交给人类专家进行评估。如果解码器无法解码有效的控制器 ID,它将继续使用当前控制器并且不会向车辆发送新指令。

路径跟踪控制系统的详细说明如图 5 所示。
在这里插入图片描述

D. Co-Pilot Tuning and Evaluation(Co-Pilot调整和评估)

为了确保Co-Pilot在每项任务中都能达到最佳表现,我们采用面向专家的黑盒调优方法来优化向Co-Pilot模块提供的提示。在调优工作流程中,我们主要关注LLM是否能够在各种路况下选择符合特定人类意图的最佳控制器。

该实验涉及三个运动控制器(NMPC、Stanley with Preview、PID)和Co-Pilot。这些控制器和Co-Pilot在五个分段(1-500、500-1000、1000-1500、1500-2000、2000-2600)上进行了测试。两种人类意图(以Co-Pilot命令的形式)通过两项测试进行测试,即一项要求精确跟踪,另一项则表达对稳定性的需求。为了找出三个控制器中哪一个在每个轨道段上最符合人类意图,选择准确性和稳定性作为评价指标。它们是根据实时车辆状态计算的。为了确保比较更清晰,将调整数量级,并将数值范围映射到区间(0, 1)上。

例如,使用 Fréchet Distance [41] 评估跟踪精度。它衡量两条轨迹之间的相似度。形式上,两个轨迹。
在这里插入图片描述

其中F和G分别表示地面坐标中一系列点描述的参考轨迹和实际轨迹; 𝛼 和 𝛽 分别表示两条轨迹上的参数函数。相应地,准确度指标定义为:
在这里插入图片描述

考虑到车辆速度在整个赛道上几乎保持恒定,我们将稳定性指标定义如下。
在这里插入图片描述

其中𝐴𝑦表示横向加速度,𝐴𝐴z表示偏航加速度。加权系数 𝜆1 和 𝜆2 分别指定为值 0.3 和 0.7。

为了评估Co-Pilot完成每个航段选择任务的情况,我们通过模拟实验比较了备用控制器在准确性和稳定性指标方面的表现,并根据它们符合两种人类意图的能力对其进行排名。根据这个排名,我们使用绩效分数作为评价标准;详情见表二。
在这里插入图片描述

为了演示调整提示内容对性能的影响,我们手动顺序更新记忆以对Co-Pilot进行提示调整。由于选择任务非常简单,但涉及大量信息,因此我们仅调整包含控制器描述的提示部分作为初步尝试。

人类专家从简单的语义记忆(Co Pilot A1)开始,仅提供控制器的名称,导致其盲目偏好流行的 NMPC 控制器。专家推测,这是因为NMPC控制器在相关文献和参考数据中获得了较高的评级,而没有特定场景的记忆。因此,人类专家在Co-Pilot A2中添加了不同控制器针对特定场景的性能的定性描述来更新语义记忆,而道路状态描述中的术语曲率给A2带来了歧义。它错误地假设任何提到曲率的片段都是弯曲的,导致基于曲率的信息的准确性性能不足。

因此,建议Co-Pilot A3提示提供特定数据来更新情景记忆,并使LLM能够从增加的经验中自主学习和综合知识。这使其能够获得丰富且精确的提示,从而提高性能。提示和性能分数如表三所示。
在这里插入图片描述

我们可以得出结论,在两次测试中,Co-PilotA3的整体表现最好,同时我们也注意到Co-PilotA3具有更好的适应性,以图6为例。因此,Co-Pilot A3 是我们调校的最终形式,因为它具有基于情景记忆自主学习和适应控制器选择策略的能力。
在这里插入图片描述

三名Co-Pilot在赛道段上的轨迹(航路点 460-570)。在弯道段,两个备用控制器的性能发生变化,Co-PilotA3可以及时识别这种变化并做出最佳选择。

我们需要指出的是,考虑到所涉及的数据量,这三个提示只是调优过程中正在测试的内存组合的代表性“里程碑”。由于面向专家的黑盒调校的无导数优化过程的性质,提示中的一些细微变化可能不会反映在Co-Pilot的性能上。

E. Co-Pilot Experiment

最后进行最终的综合评估,更彻底地检验其性能。与我们在调优部分所做的不同,我们模拟乘客在乘坐过程中的意图变化。此外,还引入了以下新的意图项(兴奋)以及作为度量的线性平均纵向速度。
在这里插入图片描述

这样我们就可以测试Co-Pilot适应动态、复杂情况的能力,这比优化部分的固定、简单任务更现实、更有挑战性。

我们进一步对Co-PilotA3进行了检验,全面测试了Co-Pilot对控制器的选择,以及在不同强度尺度下测得的控制器性能。为了更清楚地呈现结果,我们使用粗体和下划线来区分符合当前提供的意图的最佳和次佳控制器。 (一些意图更适合由较小的度量值表示,例如与较低稳定性和较高平均速度相对应的兴奋)。

如表IV所示,Co-Pilot针对不同路段给出的各种人类意图选择不同的控制器并实现最佳性能。我们可以看到,Co-Pilot可以在每个路段选择最适合当前人类意图和路况的控制器。即使面对各种条件和多重标准,Co-Pilot也能做出最佳选择。此外,我们还注意到,在500-1000和1500-2000段中,尽管人类命令不要求准确性,但准确性并未超过安全范围。
在这里插入图片描述

通过这些实验,我们可以得出结论,Co-Pilot的动态控制器选择机制可以适应不同的人类意图,为每个分段选择最合适的控制器,验证了该框架的有效性。有效解决了路径跟踪控制任务中人与车之间的差距问题。

THE CO-PILOT FOR TRAJECTORY PLANNING(轨迹规划的Co-Pilot)

在本节中,我们将实现另一个 Co-Pilot 来执行轨迹规划任务。与第四节不同的是,这里对Co-Pilot的详细实现进行了更简洁的描述,为Co-Pilot框架应用提供了更简单的解决方案。我们转而关注 CoPilot 在这项任务中的表现。

A. Task Setting

在此轨迹规划任务中,我们设置了一个具有静态避障功能的简单双车道变更场景。图 7 给出了一个示例。要求Co-Pilot以车辆位置中心时间序列的形式提供完成机动的轨​​迹。
在这里插入图片描述

为了关注轨迹本身,我们没有为此任务提供任何车辆动态模拟。人类专家会检查轨迹是否存在任何可能的碰撞或难以置信的动作。

B. Co-Pilot Utilization(Co-Pilot利用率)

作为一项与LLM一次对话即可完成的静态任务,CoPilot 的系统结构非常简单。只有用于规划轨迹的支持模块是为了辅助人类专家判断轨迹而设计的。图 8.提供了一个例子。
在这里插入图片描述

模块实现也共享与我们在第四节中所做的类似的过程。工作记忆反映了当前的情况,包括驾驶场景描述和当前位置。程序记忆设置驾驶规则并将LLM的答案格式指定为坐标的时间序列。语义记忆描述了驾驶世界中的局部坐标系。情景记忆并没有具体体现在这个任务中。使用的LLM模块是“gpt-3.5-turbo-0301”,与上一个任务使用的模块相同。至于解码器,它对Co-Pilot响应中提供的坐标进行解码。

C. Co-poilot Tuning

与运动跟踪控制任务相比,规划任务更加复杂。因此,人类专家首先制定了一个规则来评估Co-Pilot规划的轨迹。专家从三个方面对轨迹进行打分。合理性关注的是考虑到物理和动态约束,车辆的轨迹是否合理。任务完整性关注DLC机动是否完成,正确性关注轨迹是否完成整个任务并满足所有要求。完美的轨迹可获得 10 分。详细评分规则见表五。
在这里插入图片描述

调整过程从初始提示开始。提示测试 10 次,并对每个轨迹进行评分。根据结果​​,提示由人类专家进行了调整并再次测试了10次。重复这样的过程可以提高Co-Pilot的表现。作为初步尝试,一旦 10 次测试中特定提示的平均得分达到 8,我们就停止调整过程。

最终,经过四个提示版本的迭代,10次测试的平均得分达到了8.1,这意味着Co-Pilot平均可以提供避免碰撞的轨迹。调整过程的详细信息和相应的结果可以在表VI中找到。提示中的“删除线”文本表示当前迭代中被删除的部分,而“粗体”文本表示该部分被添加到提示中。图 9 提供了 4 名不同Co-Pilot提供的轨迹的不同代表。

在这里插入图片描述
在这里插入图片描述

图 9. 不同Co-Pilot的代表性轨迹。圆圈代表Co-Pilot提供的航路点。蓝色矩形代表障碍车。Co-Pilot B1 未能在正确的时间进行机动,导致相撞。该轨迹的得分为 0。Co-Pilot B2 未能切换回原来的车道,并且转向可能过于激进。这条轨迹给5分。Co-PilotB3完成了机动,但转向也太激进了。这条轨迹的得分为 8。Co-Pilot B4 以更温和的转向完成了机动。该轨迹得分为 10

从结果中我们可以看出,面向专家的黑盒调优达到了预期效果。提示中的调整显着提高了性能。与运动跟踪任务不同,调整过程涉及程序存储器中的描述。性能的提高主要得益于提示中对任务的更集中、更直接的描述(B1>>B2)。我们还注意到,一些对人类驾驶员来说似乎很清楚的描述可能会误导Co-Pilot,从而导致缺陷(B3>>B4)。

D. Co-Pilot Experiment

最后,我们引入更多的人类情感作为输入的一部分,并比较三个相似任务的轨迹,所有这些任务均由 Co-Pilot B4 提供。具体来说,任务1没有提出额外的要求,与调优部分相同。任务2要求“让乘客平稳舒适地乘坐”,任务3要求“快速超越熄火的车辆”。图 10 说明了三个任务的三个不同轨迹。
在这里插入图片描述

从轨迹来看,三项任务均已完成。与任务1相比,任务2中的轨迹使变化的操纵更加平滑,因此使乘客感觉更舒适。在任务 3 中,轨迹不是行驶得更快,而是更早地开始机动并更快地切换回原始车道。这可以认为是对请求的合理解决方案。

从实验中我们可以得出结论,经过适当的专家导向调整后,Co-Pilot可以进一步根据人类意图生成特定的轨迹。虽然Co-Pilot只是一个专门用于相当简单的规划任务的人,但我们相信可以开发更多的应用程序。

Discussion

我们在两种不同类型任务中的实验初步证明了LLM能够进行人机协同驾驶任务,我们相信LLM可以进一步应用于自动驾驶领域。在本节中,我们从总体角度讨论 Co-Pilot 框架的潜力。我们主要关注人机混合智能的潜力以及在更复杂任务中应用的挑战。

A. Co-Pilot, Parallel Learning, and Human-Machine Hybrid Intelligence(Co-Pilot、并行学习、人机混合智能)

并行学习是机器学习的一个框架,它可以通过在并行的人工系统中进行学习过程来促进训练模型的过程[42],[43]。

它已广泛应用于智能车辆的研究[44],[45]。我们的 Co-Pilot 框架可以被认为是并行学习的专门实现,人类专家和LLM共同完成规定的学习任务,如图 11 所示。

人类专家提供抽象的指示性信息,而LLM负责详细的执行。这种人机混合过程已被证明是促进规范性学习的有效方法,而规范性学习通常是并行学习中最具挑战性的方面。LLM理解复杂信息的能力极大地有益于这一过程,为实施并行学习提供了新的解决方案。

而且,我们认为Co-Pilot是LLM在人机混合智能应用的一次创新尝试[46]。LLM极大地促进了人机交流的效率,使人类和机器更好地相互理解。人类专家根据Co-Pilot的表现对Co-Pilot进行微调的过程可以视为系统的自适应训练。这使得深刻的人机合作成为可能,在人工智能系统的测试和调整方面具有巨大的潜力。

B. Application Prospects of LLMs in Autonomous Driving(LLM在自动驾驶领域的应用前景)

通过以上实验,我们得出Co-Pilot在人机协同驾驶应用中表现出巨大潜力的结论。我们相信LLM的能力可以进一步发展,为自动驾驶中的一些棘手问题提供解决方案。例如,LLM的推理和理解能力可能有助于解决长尾问题。基于常识和记忆中提供的信息,LLM能够理解不熟悉的场景并做出正确的反应。

此外,我们还期望未来视觉语言大型模型的出现,它可以同时处理图像和文本信息并生成更真实和准确的响应。此类模型可以利用两种模式的互补信息,并比单独使用任何一种模式实现更全面、更全面的场景表示。它们可能为自动驾驶带来突破和机遇,例如提高对驾驶环境的感知和理解,增强自动驾驶车辆与人类之间的沟通和互动,以及促进自动驾驶系统的开发和评估。我们相信这种大规模多模态模型是未来几年的新兴研究前沿。

C. Potential Challenges in Autonomous Driving Applications

尽管潜力巨大,LLM在自动驾驶领域的进一步应用中仍面临潜在挑战。例如,本研究完成的两项任务都相对简单。这两项任务都不涉及动态场景,并且侧重于相对长期的响应。任务目标清晰且易于描述,向Co-Pilot提供的提示相当简短。自动驾驶汽车测试和评估中的挑战性问题之一是有效描述复杂的驾驶场景[47]。

我们相信记忆机制可以帮助系统扩展到更复杂的场景,但还需要进一步的研究。在本研究中,作为初步尝试,我们只是根据任务本身设计了不同的记忆内容。然而,应该提出一种通用的结构来组织存储器中的信息,以提高该机制的有效性[40]。在需要迭代的特定任务中,LLM 输出也可以作为工作记忆的一部分。还可以引入其他成熟的自动化技术来处理更复杂和动态的场景。例如,语义记忆和情景记忆可以通过情境学习从工作记忆中学习[48],程序记忆可以通过元语言[49]和强化学习[13]相结合来获得。

此外,概率模型的LLM性质使得几乎不可能保证他们的反应是正确的。该问题的有效解决方案包括改进提示、设置故障安全机制以及微调模型参数或结构。然而,驾驶场景的复杂性使得检测 LLM 响应中的潜在错误变得更加困难。在跟踪任务中,一个简单的验证器就可以解决潜在的失败。对于涉及预测和决策的其他任务,可靠的故障安全机制的设计需要深入研究。我们相信,解决这个问题的最终办法是在应用过程中长期学习。这可以降低连续犯错误的概率,直到低于可接受的阈值,而详细的实现和进一步的讨论超出了本文的范围。

Conclusion

据我们所知,我们的研究首次尝试将LLM直接应用于人机协同驾驶任务。我们设计了一个通用框架,并利用它来完成人机协同驾驶中的两个特定任务。专家级的黑匣子调校,将Co-Pilot的性能提升至理想状态。

结果表明,所提出的Co-Pilot框架可以解决HMI中的三个主要问题:(1)嵌入在Co-Pilot框架中的LLM可以理解驾驶员的意图并相应地调整车辆的操作条件; (2)Co-Pilot框架中的记忆机制可以为LLM提供除了预训练中获得的常识之外的特定领域知识,提高系统在不同领域的性能; (3) Co-Pilot框架可以通过LLM的及时调整表现出高度的适应性。总而言之,Co-Pilot有效地弥合了人类与机器之间的差距,这项研究揭示了LLM在智能汽车领域的巨大潜力。

作为初步尝试,存在一些限制。这些任务都是静态的并且相对简单。周边交通也不包括在内。另外,正如讨论中提到的,如何建立更高效的领域特定语言来描述流量场景也是一个有趣的话题。我们相信,将会基于我们的框架进行进一步的研究并促进进一步的应用。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值