一文尽览面向类人自动驾驶的大型语言模型

一文尽览面向类人自动驾驶的大型语言模型

自动驾驶(AD)已成为一项具有变革性的技术,具有彻底改变智能交通系统、提高道路安全性和增强出行能力的潜力。自动驾驶技术的核心在于决策过程,这一过程包括分析数据、理解环境以及就导航和安全性做出明智决策。如图1所示,根据所采用的技术,自动驾驶系统的发展可以分为三类。

附赠自动驾驶最全的学习资料和量产经验:链接

第一类自动驾驶主要依赖于确定性方法,如基于规则和优化的方法。虽然这些方法提供了可靠性和可解释性,但它们往往缺乏应对复杂和新颖场景的能力。第二类自动驾驶则由深度学习的快速发展所推动,在自动驾驶系统中利用深度强化学习(DRL)等技术。尽管这些基于学习的方法在处理复杂场景方面取得了成功,但它们仍面临长尾场景的挑战,并且由于它们从有限的训练集中学习模式,因此在训练集之外的环境中缺乏泛化能力。

自动驾驶(AD)面临的关键挑战之一是解决长尾问题,即处理现实世界交通中罕见但复杂的场景的能力。尽管人们已经努力使用模拟器来模拟自动驾驶环境,但现实世界场景的复杂性,包括交通规则、天气条件、行人行为和各种紧急情况等因素,给现有方法带来了巨大困难。此外,自动驾驶系统中缺乏可解释性阻碍了人类的信任,并阻碍了其广泛应用。图2直观地展示了传统自动驾驶方法的局限性,进一步强调了引入大型语言模型(LLMs)的必要性。

image

最近,大型语言模型(LLMs)的发展为自动驾驶(AD)领域带来了革命性的变化。对于自动驾驶汽车来说,做出类似人类的决策至关重要,因为它们需要在人类社会中以安全且符合社会规范的方式运行。凭借强大的语言理解和推理能力,这些模型为自动驾驶汽车开启了一个新时代或第三类方法。一方面,LLMs可以作为知识库,为自动驾驶提供丰富的常识知识,弥补纯数据驱动方法的不足。另一方面,LLMs擅长处理自然语言指令,使车辆能够理解人类意图并表现出更类人的驾驶行为。此外,LLMs还展示了出色的少样本学习和迁移学习能力,有望解决自动驾驶中少数极端情况和大量长尾问题。以GPT-4为代表的LLMs在路况风险感知、决策规划、人机交互等关键任务上取得了初步突破,大大提高了自动驾驶的性能。尽管将强大的语言模型引入复杂的物理世界仍面临诸多挑战,但LLMs有望成为未来自动驾驶的关键赋能技术。自动驾驶研究有时将LLMs视为“黑盒”,忽视了其科学基础和通用性,而面向人工智能的研究则可能依赖自动驾驶数据集,而不考虑模拟器或现实世界测试的重要性。本文旨在通过提供LLMs应用的全面概述来弥合这些差距。

本文的主要贡献:

1)系统回顾了LLMs在自动驾驶领域的最新进展,并提出了一个涵盖感知、决策、规划和控制的分类分析框架;

2)聚焦于模块化决策和端到端学习两种范式,深入分析了不同技术路线的优缺点,并细化了接下来需要解决的关键科学问题;

3)展望了LLMs驱动的自动驾驶的未来发展方向和实际应用需求,为学术界和工业界提供了参考。

大语言模型和多模态大语言模型

image.png

1)大语言模型和多模态大语言模型的预训练和微调

image.png

image.png

2)In-context Learning and Theoretical Analysis

In-context Learning是大语言模型(LLMs)中出现的一种令人惊讶的现象,其中模型只需通过提供由几个输入输出示例组成的提示,就可以专门执行特定任务,而无需对模型参数进行任何梯度更新。Wies等人提出了一个可能近似正确(PAC)学习框架来形式化上下文学习,表明在大概率下,上下文学习者可以PAC学习下游任务D̃,即:

image

其中,贝叶斯错误率表示在给定任务上任何分类器的理论上可能的最低错误率。Xie等人提出了另一个理论框架,其中通过隐式贝叶斯推断来概念化大语言模型(LLMs)的上下文学习能力。他们建立了几个基础结果,以描述上下文学习行为,包括渐近最优性、随着示例长度的增加而单调减少的错误率,以及处理不同长度测试示例的能力。上下文学习使自动驾驶系统能够适应新场景而无需进行大量重新训练,这对于处理多样化和动态的驾驶环境至关重要。例如,一个由LLM增强的自动驾驶系统可以根据少量新交通模式或道路条件的示例快速调整其行为。

模块化决策制定

image.png

image.png

另一种方法侧重于将大语言模型(LLMs)与强化学习(RL)技术相结合,以实现安全且准确的多任务决策制定。Liu等人提出了多任务决策制定生成式预训练Transformer(MTD-GPT)模型,该模型结合了RL和GPT的优势,以同时处理多个驾驶任务。通过在状态-动作-奖励元组{s, a, r}上进行训练并生成决策制定数据序列{s, a},MTD-GPT与单任务决策制定模型相比展示了卓越的性能。此外,LLMs还与数字孪生技术相结合,以增强在模拟环境中的决策制定。Cui等人提出了一个框架,该框架利用LLMs的自然语言能力和上下文理解能力,基于环境信息xenv和个性化提示xprompt为自动驾驶车辆生成动作a。该框架旨在提供个性化辅助和透明的决策制定。

image.png

端到端自动驾驶

image.png

在闭环评估领域,Fu等人介绍了LimSim++,这是一个用于评估由多模态大型语言模型((M)LLM)驱动的自动驾驶的平台。LimSim++将场景描述xDs、任务描述xTd、导航信息xNi、视觉内容xVc、道路网络xRn和车辆信息xVi作为输入,并生成驾驶决策aDd、轨迹aT和控制信号aCs。类似地,Jin等人提出了SurrealDriver,它将LLMs与CARLA模拟器相结合,以自车状态xSego和周围状态xSsur为输入,并为CARLA程序生成JSON格式的命令aCCARLA。Tian等人介绍了VistaGPT,这是一个使用LLMs构建模块化端到端自动驾驶系统的框架,它以提示xP和自动驾驶模块xMAD为输入,并生成原子自动驾驶模型aMatom。Wang等人提出了DriveMLM,这是一个基于LLM的框架,它在实际模拟器中执行闭环自动驾驶,以图形(xF)、系统消息xSm和用户指令xUi为输入,并生成低级决策aDl和解释aE。Shao等人提出了LMDrive,这是一个由语言引导、端到端、闭环的自动驾驶框架,它以相机-激光雷达传感器数据xDCL和驾驶指令xId为输入,并生成车辆控制信号aCs。

几项研究已经聚焦于将大语言模型(LLMs)与基于视觉的自动驾驶框架相结合。Pan等人提出了VLP(Vision-Language-Planning),该模型利用语言模型来弥合语言理解与自动驾驶之间的鸿沟。VLP以鸟瞰图(BEV)特征为输入,包括标签xL、边界框xB、自我车辆轨迹xTego以及其他agent的轨迹xTagents,并生成增强的BEV特征表示aFBEV,以改善推理和规划。Tian等人介绍了DriveVLM,它利用视觉-语言模型(VLMs)和思维链(CoT)进行分层规划,以图像序列xIs为输入,并生成元动作aAm、决策aD和路径点aW。

知识驱动的决策制定是另一个研究兴趣点。Wen等人提出了DiLu框架,该框架利用大语言模型(LLMs)为自动驾驶注入知识驱动的能力。DiLu以场景描述向量xVsd为输入,并输出加速aAacc、怠速aAid和减速aAdec动作。Fu等人探索了LLMs在类人自动驾驶中的应用,以环境观测xOe为输入,并生成离散的元动作aAm。

研究人员还解决了可解释性和透明度的问题。Wang等人介绍了DriveMLM,这是一个基于LLM的自动驾驶框架,它将LLM的决策与行为规划模块对齐。DriveMLM接受多模态输入,如图像xI、点云xP、交通规则xTr、系统消息xSm和用户指令xUi,并生成决策状态aDs和解释aE。

Han等人提出了DME-Driver系统,该系统使用强大的视觉-语言模型来模拟可解释的决策和控制,以当前和之前的场景图像xIc、xIp、提示xP和车辆状态xSv为输入,并生成类人逻辑aLh、关注区域aFa、场景描述aDs、推理aR、决策aD和控制信号aCs。

结论和讨论

本综述全面回顾了将大语言模型(LLMs)集成到基于知识的自动驾驶(AD)系统中的最新进展。首先追溯了自动驾驶系统的发展历程,从基于规则和优化的方法到基于学习的技术。然后,介绍了LLMs的关键特性和训练方案,这些特性和方案使它们能够作为自动驾驶系统的知识库和推理引擎。通过将现有工作分为模块化自动驾驶流程和端到端自动驾驶系统,我们详细分析了LLMs如何增强场景理解、动作规划和人机交互,从而填补数据驱动的人工智能与类人自动驾驶之间的差距。与传统自动驾驶方法相比,基于LLMs的方法在复杂场景中的适应性更强,对新环境的泛化能力也更强,在安全性和效率方面有可能超越人类驾驶员。

然而,LLMs在自动驾驶中的应用并非没有挑战。首先,LLMs的推理速度和计算成本需要得到显著优化,以满足自动驾驶系统的实时性要求。其次,在将基于LLMs的决策部署到安全关键的自动驾驶任务之前,必须对其安全性、鲁棒性和可解释性进行严格验证。此外,由于LLMs是在大规模在线语料库上训练的,它们可能会继承社会偏见并产生与人类价值观不符的输出,从而引发需要解决的伦理问题。

参考

[1] Large Language Models for Human-like Autonomous Driving: A Survey.

  • 20
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值