A Survey for Foundation Models in Autonomous Driving(翻译)

A Survey for Foundation Models in Autonomous Driving
Haoxiang Gao1 , Yaqian Li2 , Kaiwen Long2 , Ming Yang3 , Yiqing Shen4∗
1Motional AD LLC 2Li Auto Inc. 3Shanghai Jiao Tong University , 4Johns Hopkins University
haoxiang.gao@motional.com, {liyaqian,longkaiwen}@lixiang.com, mingyang@sjtu.edu.cn, yshen92@jhu.edu

Abstract

基础模型的出现在自然语言处理和计算机视觉领域掀起了革命性的变革,为其在自动驾驶(AD)中的应用铺平了道路。本文调查综述了40多篇研究论文,展示了基础模型在提升AD方面的作用。大型语言模型通过其在推理、代码生成和翻译方面的熟练能力,特别是在AD的规划和仿真中发挥着重要作用。与此同时,视觉基础模型越来越多地被适应于关键任务,如3D物体检测和跟踪,以及为仿真和测试创建逼真的驾驶场景。集成多样输入的多模态基础模型表现出卓越的视觉理解和空间推理能力,这对于端到端的AD至关重要。本调查不仅提供了一个有结构的分类体系,根据AD领域内的模态和功能对基础模型进行分类,而且还深入探讨了当前研究中使用的方法。它识别了现有基础模型与尖端AD方法之间的差距,从而规划了未来的研究方向,并提出了一条弥合这些差距的路线图。

1 Introduciotn

自动驾驶(AD)领域整合深度学习(DL)标志着该领域的一次重大飞跃,吸引了学术界和工业界的广泛关注。AD系统配备了摄像头和激光雷达,模仿类人的决策过程。这些系统基本上由三个关键部分组成:感知、预测和规划。感知部分利用DL和计算机视觉算法,专注于物体检测和跟踪。预测部分预测交通代理的行为及其与自动车辆的互动。规划部分通常呈层级结构,涉及制定战略性驾驶决策、计算最优轨迹以及执行车辆控制命令。基础模型的出现,尤其是在自然语言处理和计算机视觉领域赫赫有名,为AD研究引入了新的维度。这些模型之所以与众不同,是因为它们在庞大的网络规模数据集上进行训练,并具有庞大的参数规模。鉴于自动驾驶车辆服务产生的大量数据以及包括NLP和人工智能生成内容(AIGC)在内的AI进步,人们对基础模型在AD中的潜力越来越好奇。这些模型可能在执行一系列AD任务中发挥作用,如物体检测、场景理解和决策制定,其智能水平类似于人类驾驶员。

基础模型解决了AD中的几个挑战。传统上,AD模型以监督方式训练,依赖于手工注释的数据,这些数据往往缺乏多样性,限制了它们的适应性。然而,基础模型由于在多样化的网络规模数据上训练,显示出优越的泛化能力。它们可以用其推理能力和从大规模预训练中获得的知识,替代规划中复杂的启发式规则系统。例如,LLM拥有推理能力和从预训练数据集中获得的常识性驾驶知识,这有可能替代需要在软件代码中复杂工程努力手工制定规则及调试边角情况的启发式规则规划系统。该领域的生成模型可以为模拟创建真实的交通场景,这对于在罕见或具挑战性情况下测试安全性和可靠性至关重要。此外,基础模型有助于使AD技术更以用户为中心,语言模型能够理解并执行自然语言中的用户命令。

尽管在将基础模型应用于AD方面进行了大量研究,但在现实世界应用中仍有明显的局限性和差距。我们的调查旨在提供一个系统的回顾,并提出未来的研究方向。与自动驾驶相关的两项调查分别是LLM4Drive[Yang et al., 2023c],更侧重于大型语言模型。[Huang et al., 2023]对基础模型在自动驾驶中的应用进行了广泛的总结,主要在模拟、数据注释和规划方面。我们在现有调查的基础上进行了扩展,涵盖了视觉基础模型和多模态基础模型,分自动驾驶(AD)领域的深度学习(DL)集成标志着该领域的显著飞跃,吸引了学术界和工业界的广泛关注。AD系统配备了摄像机和激光雷达,模仿了类似人类的决策过程。这些系统基本上由三个关键组件组成:感知、预测和规划。感知,利用DL和计算机视觉算法,关注于物体检测和跟踪。预测则预测交通代理的行为及其与自动车辆的交互。规划,通常层次化地构成,涉及制定战略驾驶决策、计算最佳轨迹和执行车辆控制命令。基础模型的出现,特别是在自然语言处理和计算机视觉领域中的突出应用,为AD研究带来了新的维度。这些模型之所以独特,是因为它们在大量的网络规模数据集上进行训练并具有巨大的参数规模。鉴于自动驾驶车辆服务生成的大量数据以及AI,包括NLP和AI生成内容(AIGC)方面的进步,人们对基础模型在AD中的潜力越来越感兴趣。这些模型可以在执行AD任务,例如物体检测、场景理解和决策制定时,展现出与人类驾驶员相似的智能水平。

2 Large Language Models in AD

2.1 概述
最初在自然语言处理(NLP)领域起到革命性作用的大型语言模型(LLMs)现在正驱动自动驾驶(AD)领域的创新。双向变压器模型(BERT)[Devlin et al., 2018] 在NLP中开创了基础模型,利用变压器架构理解语言语义。这种预先训练的模型可以在特定数据集上进行微调,并在广泛的任务中取得最先进的结果。在此之后,OpenAI发布的生成式预训练变压器(GPT)系列[Raford et al., 2018],包括GPT-4,展示了显著的NLP能力,这归功于在广泛的数据集上进行训练。后来的GPT模型,包括ChatGPT和GPT-4[Achiam et al., 2023],是使用数十亿参数训练的,并使用了爬取网络数据,包含数万亿词,它们在许多NLP任务上表现出强大的性能,包括翻译、文本摘要、问答等。它还展示了一次性和少次性推理能力,能够从上下文中学习新技能。越来越多的研究人员开始应用这些推理、理解和上下文学习的能力,来解决自动驾驶中的挑战。

2.2 自动驾驶中的应用
推理与规划
自动驾驶中的决策过程与人类推理密切相关,需要解释环境线索以做出安全舒适的驾驶决策。大型语言模型(LLMs),通过在多样化的网络数据上的训练,已经吸收了与驾驶相关的常识知识,这些知识来自包括网络论坛和官方政府网站在内的众多来源。这些丰富的信息使LLMs能够从事自动驾驶所需的细致决策。在自动驾驶中应用LLMs的一种方法包括向它们提供详细的驾驶环境文本描述,促使它们提出驾驶决策或控制命令。如图2所示,这一过程通常包括全面的提示,详细说明代理状态(如坐标、速度和过去的轨迹)、车辆状态(即速度和加速度)以及地图细节(包括交通灯、车道信息和预定路线)。为了增强交互理解,LLMs还可以被指导提供其响应的推理。例如,GPT驾驶员[Mao et al., 2023a]不仅推荐车辆动作,还阐明了这些建议背后的理由,显著提高了自动驾驶决策的透明度和可解释性。这种方法,如Driving with LLMs [Chen et al., 2023]所示,增强了自动驾驶决策的可解释性。同样,“接收、推理和反应”方法[Cui et al., 2023]指导LLM代理评估车道占用情况并评价潜在动作的安全性,从而促进对动态驾驶场景的更深层次理解。这些方法不仅利用LLMs理解复杂场景的固有能力,而且还利用它们的推理能力来模拟类人的决策过程。通过整合详细的环境描述和策略性提示,LLMs在自动驾驶的规划和推理方面做出了重大贡献,提供了反映人类判断和专业知识的见解和决策。

预测
预测功能预测交通参与者的未来轨迹、意图以及与自车的可能交互。常见的基于深度学习的模型是基于栅格化或矢量图像的交通场景,这些图像编码了空间信息。然而,要准确预测高度交互性的场景仍然是一个挑战,这需要推理和语义信息,例如,优先权、车辆转向信号和行人手势。场景的文本表示可以提供更多的语义信息,更好地利用LLM的推理能力和预训练数据集中的常识知识。将LLM应用于轨迹预测的研究还不多。[Keysan et al., 2023]对LLM进行了早期探索,研究其进行轨迹预测的能力。他们将场景表示转换为文本提示,并使用BERT模型生成文本编码,最终与图像编码融合以解码轨迹预测。他们的评估显示与仅使用图像编码或文本编码的基线相比,有显著改进。

用户界面和个性化定制
自动驾驶车辆应该用户友好,并能够遵循乘客或远程操作员的指令。目前的Robotaxi远程协助界面仅用于执行有限的预定义命令集。然而,LLM的理解和交互能力使得自动驾驶汽车可以理解人类的自由形式指令,从而更好地控制自动驾驶车辆并满足用户的个性化需求。[Cui et al., 2023] 探索了基于LLM的规划器,该规划器根据个性化指令(例如“激进驾驶”或“保守驾驶”)进行条件设置,并能够输出不同速度和风险性的动作。[Yang et al., 2023b] 利用LLM的推理能力,并提供逐步规则以决定对用户命令的响应。LLM代理也能够根据预定义的交通规则和系统要求接受或拒绝用户命令。

模拟与测试
LLM可以从现有文本数据中总结和提取知识,并生成新内容,这可以促进模拟和测试。ADEPT系统[Wang et al., 2022b]使用GPT通过问答方法从NHTSA事故报告中提取关键信息,并能够生成用于模拟和测试的多样化场景代码。TARGET系统[Deng et al., 2023]能够使用GPT将交通规则从自然语言翻译为特定领域的语言,这用于生成测试场景。LCTGen[Tan et al., 2023] 使用LLM作为强大的解释器,将用户的文本查询翻译成交通模拟场景的地图车道和车辆位置的结构化规格。

### 2.3 方法和技术
研究人员使用类似于自然语言处理中的技术来利用LLM执行自动驾驶任务,例如提示工程、上下文学习、小样本学习,以及从人类反馈中学习的强化学习[Ouyang et al., 2022]。

#### Prompt Engineering
提示工程采用复杂的输入提示和问题设计,引导大型语言模型生成我们期望的答案。

一些论文在提示前添加交通规则,以使LLM代理遵守法律。Driving with LLMs[Chen et al., 2023]涵盖了交通灯变化、左侧行驶或右侧行驶等方面的驾驶规则。[Mao et al., 2023b] 提出了一个称为常识模块的组件,存储了人类驾驶的规则和指令,例如避免碰撞和保持安全距离。

LanguageMPC[Sha et al., 2023] 采用自上而下的决策系统:根据不同情况,车辆有不同的可能行动。LLM代理还被指导识别场景中的重要代理,并输出关注权重和偏置矩阵,以从预定义的行动中进行选择。

一些论文也引入了记忆模块,存储过去的驾驶场景。在推理时,将检索到的相关示例添加到提示中作为上下文,LLM代理可以更好地利用小样本学习能力,并反映最相关的场景。DILU[Wen et al., 2023a] 提出了一个记忆模块,存储驾驶场景的文本描述在向量数据库中,系统可以检索top-k场景用于小样本学习。[Mao et al., 2023b] 有一个两阶段的检索过程:第一阶段使用k近邻搜索在数据库中检索相关的过去示例,第二阶段要求LLM对这些示例进行排序。

更多的论文构建了复杂的系统来管理提示生成中的任务,触发对其他模块或子系统的函数调用以获取决策所需的信息。[Mao et al., 2023b] 创建了库和函数API调用,以便于LLM与感知、预测和映射系统交互,使LLM可以充分利用所有可用信息。LanguageMPC [Sha et al., 2023] 使用LangChain创建了LLM所需的工具和接口,以获取相关车辆、可能的情况和可用行动。

微调与上下文学习
微调(Fine-tuning)和上下文学习(In-context learning)都被用来将预训练模型适配到自动驾驶领域。微调是在较小的领域特定数据集上重新训练模型参数,而上下文学习或小样本学习(few-shot learning)则利用大型语言模型(LLM)的知识和推理能力,从输入提示中给定的例子进行学习。大多数论文都集中在上下文学习上,但只有少数论文运用了微调。关于哪一种方法更好,研究人员的结果并不一致:[Mao et al., 2023b] 比较了这两种方法,发现小样本学习略微更有效。GPT-Driver [Mao et al., 2023a] 得出了不同的结论,认为使用OpenAI的微调表现明显优于小样本学习。[Chen et al., 2023] 也比较了从零开始训练和微调方法,发现使用预训练的LLaMA模型结合基于LoRA的微调表现得比从零开始训练要好。

强化学习和人类反馈
DILU [Wen et al., 2023a] 提出了反思模块,它存储了优秀和不良的驾驶实例以及人类的纠正,进一步提高其推理能力。通过这种方式,LLM可以学习推理什么行为是安全的,什么是不安全的,并且持续地反思大量过去的驾驶经验。Surreal Driver [Jin et al., 2023] 访问了24名驾驶员,并使用他们对驾驶行为的描述作为连锁思考提示,以开发一个“教练代理”模块,该模块可以指导LLM模型具有类似人类的驾驶风格。Incorporating Voice Instructions [Wang et al., 2022a] 使用了人类教练的指令,并构建了一个自然语言指令的分类法,包括行动、奖励和推理,这些用来训练基于深度强化学习的自动驾驶代理。

2.4 限制与未来方向
幻觉与危害性
幻觉在大型语言模型(LLM)中是一个巨大的挑战,即使是最先进的大型语言模型仍然会产生误导性和虚假信息。现有论文中提出的大多数方法仍然需要从LLM的响应中解析驾驶动作。在遇到未见过的场景时,LLM模型仍然可能产生无用或错误的驾驶决策。自动驾驶是一个安全关键的应用,相比聊天机器人它有更高的可靠性和安全性要求。根据评估结果 [Mao et al., 2023a],用于自动驾驶的LLM模型有0.44%的碰撞率,高于其他方法。[Chen et al., 2023] 提出了一种减少幻觉的方法,通过在没有足够信息做出决策时提问,并指示LLM回答“我不知道”。预训练的LLM也可能包含有害内容,例如,激进驾驶和超速。更多的人在循环训练和校准可以减少幻觉和有害的驾驶决策。

延迟与效率
大型语言模型通常受到高延迟的困扰,生成详细的驾驶决策可能会耗尽汽车有限计算资源中的延迟预算。根据 [Jin et al., 2023] 的数据,推理需要几秒钟。拥有数十亿参数的LLM可以消耗超过100GB的内存,这可能会干扰自动驾驶车辆中的其他关键模块。在这个领域还需要进行更多的研究,比如模型压缩和知识蒸馏,以使LLM更加高效并易于部署。

依赖于感知系统
尽管LLM具有卓越的推理能力,环境描述仍然依赖于上游的感知模块。环境输入的微小错误可能会导致驾驶决策错误并引起严重事故。例如,[Mao et al., 2023b] 展示了当上游定位数据存在错误时的失败案例。LLM还需要更好地适应感知模型,在存在错误和不确定性时做出更好的决策。

现实与模拟的差距
大部分研究是在模拟环境中完成的,模拟驾驶场景比现实世界环境要简单得多。为了通过提示工程涵盖现实世界中的所有情景,需要大量的工程和人类详细注释工作,例如,模型知道如何对人让路,但可能不擅长处理与小动物的互动。

图3:自动驾驶领域LLM出版物的总结。
2.5 总结
LLM的出版物在图3中进行了总结。
我们提出了更细致的分类,按环境(真实或模拟)、自动驾驶中的功能、基础模型以及研究中使用的技术。

3 视觉基础模型


视觉基础模型在多个计算机视觉任务中取得了巨大的成功,例如对象检测和分割。DINO [Caron et al., 2021] 使用视觉变换器架构,并以自监督的方式进行训练,通过局部图像块预测全局图像特征。DINOV2[Oquab et al., 2023] 扩展了拥有十亿参数的训练规模,并使用了一个包含12亿图像的多样化精心策划的数据集,在多项任务中取得了最先进的成果。Segment-anything模型[Kirillov et al., 2023]是一个用于图像分割的基础模型。该模型通过不同类型的提示(点、框或文本)来生成分割掩码。模型使用数据集中的数十亿个分割掩码进行训练,显示出零样本迁移能力,能够根据适当的提示分割新对象。

扩散模型[Sohl-Dickstein et al., 2015]是一个广泛用于图像生成的生成性基础模型。扩散模型通过迭代地向图像添加噪声,并应用逆扩散过程来恢复图像。为了生成图像,我们可以从学习到的分布中采样,并从随机噪声中恢复出高度逼真的图像。Stable-Diffusion模型[Rombach et al., 2022]使用VAE[Kingma and Welling, 2013]将图像编码为潜在表示,并使用UNet[Ronneberger et al., 2015]从潜在变量解码为像素级图像。它还具有一个可选的文本编码器,并应用交叉注意机制来根据提示(文本描述或其他图像)生成图像。DALL-E模型[Ramesh et al., 2021]经过数十亿图像和文本对的训练,并使用稳定扩散生成高保真图像和遵循人类指令的创意艺术。

3.1 感知
SAM3D[Zhang et al., 2023a]将SAM(Segment-anything model)应用于自动驾驶中的3D物体检测。激光雷达点云被投影到BEV(鸟瞰)图像中,并使用32x32的网格生成点提示,以检测前景物体的遮罩。它利用SAM模型的零样本迁移能力生成分割遮罩和2D边框。然后,它使用这些位于2D边框内激光雷达点的垂直属性来生成3D边框。然而,Waymo Open Dataset评估显示平均精度指标仍远低于现有的最先进的3D物体检测模型。他们观察到训练有素的SAM模型无法很好地处理那些稀疏和噪声点,并且经常导致远距离物体的假阴性。

SAM被应用于3D分割任务的领域适应性,利用SAM模型的特征空间包含更多语义信息和泛化能力。[Peng et al., 2023]提出了SAM引导的特征对齐,学习不同领域3D点云特征的统一表示。它使用SAM特征提取器生成相机图像的特征嵌入,并将3D点云投影到相机图像中以获得SAM特征。训练过程优化对齐损失,使得来自不同领域的3D特征在SAM的特征空间中有统一的表示。这种方法在多个领域切换数据集中实现了3D分割的最先进性能,例如不同的城市、天气和激光雷达设备。

SAM和Grounding-DINO[Liu et al., 2023b]被用来创建一个统一的分割和跟踪框架,利用视频帧之间的时间一致性[Cheng et al., 2023]。Grounding-DINO是一个开放集物体检测器,它接受物体的文本描述作为输入,并输出相应的边框。给定与自动驾驶相关的物体类别的文本提示,它可以在视频帧中检测物体并生成车辆和行人的边框。SAM模型进一步使用这些边框作为提示,并为检测到的物体生成分割遮罩。然后将物体的结果遮罩传递给下游跟踪器,后者比较连续帧的遮罩以确定是否有新物体。

3.2 视频生成与世界模型
基础模型,特别是生成模型和世界模型,可以生成逼真的虚拟驾驶场景,这可以用于自动驾驶模拟。许多研究人员已经开始应用扩散模型到自动驾驶中,用于逼真场景的生成。视频生成问题通常被表述为一个世界模型:给定当前世界状态,在环境输入的条件下,模型预测下一个世界状态并使用扩散来解码高度逼真的驾驶场景。

GAIA-1[Hu et al., 2023]由Wayve开发,用于生成逼真的驾驶视频。世界模型使用摄像头图像、文本描述和车辆控制信号作为输入令牌,并预测下一帧。论文使用预训练的DINO[Caron et al., 2021]模型的嵌入和余弦相似度损失来提炼更多语义知识到图像令牌嵌入中。他们使用视频扩散模型[Ho et al., 2022]从预测的图像令牌解码高保真度的驾驶场景。训练扩散模型有两个独立的任务:图像生成和视频生成。图像生成任务帮助解码器生成高质量图像,而视频生成任务使用时间注意力来生成时间上一致的视频帧。生成的视频遵循高级别现实世界的约束,并具有逼真的场景动态,如物体的位置、相互作用、交通规则和道路结构。视频还显示出多样性和创造性,有基于不同文本描述和自我车辆行为的逼真可能结果。

DriveDreamer[Wang et al., 2023b]也使用世界模型和扩散模型来为自动驾驶生成视频。除了图像、文本描述和车辆行为之外,模型还使用更多结构化的交通信息作为输入,如HDMap和物体3D边框,以便模型更好地理解交通场景的更高层次结构约束。模型训练有两个阶段:第一阶段是使用条件化的结构化交通信息的扩散模型进行视频生成。它建立在一个预训练的Stable-Diffusion模型[Rombach et al., 2022]上,其参数被冻结。在第二阶段,模型被训练以同时进行未来视频预测任务和动作预测任务,以更好地学习未来预测和对象之间的互动。

[Zhang et al., 2023c]构建了一个基于点云的世界模型,在点云预测任务中达到了SOTA性能。他们提出一个类似VQVAE[Oord et al., 2017]的分词器来表示3D点云为潜在BEV令牌,并使用离散扩散预测未来的点云,给定过去的BEV令牌和自我车辆的行为令牌。

3.3 限制与未来方向
目前最先进的基础模型,如SAM,对于3D自动驾驶感知任务(如物体检测和分割)的零样本迁移能力还不够好。自动驾驶感知依赖于多个摄像头、激光雷达和传感器融合来获得最高精度的物体检测结果,这与从网络上随机收集的图像数据集大不相同。目前公开的自动驾驶感知任务数据集的规模仍然不足以训练一个基础模型并覆盖所有可能的长尾场景。尽管存在限制,现有的2D视觉基础模型可以作为有用的特征提取器用于知识蒸馏,这有助于模型更好地融合语义信息。在视频生成和预测任务的领域中,我们已经看到利用现有的扩散模型进行视频生成和点云预测的有希望的进展,这可以进一步应用于创建高保真场景,用于自动驾驶模拟和测试。

未来的研究和发展方向可能包括:

- **增强零样本迁移能力:** 研究如何提高基础模型在没有看过的数据和任务上的表现,尤其是在3D感知领域。
- **大规模自动驾驶数据集的构建:** 收集和标注更大规模、更多样化的自动驾驶相关数据,以训练和验证模型在各种场景下的泛化能力。
- **多模态和传感器融合:** 探索如何更有效地整合来自不同传感器(如摄像头、激光雷达)的数据,以提高感知精度。
- **长尾场景的建模:** 提出新的方法来处理和预测自动驾驶中出现的稀有或异常场景。
- **可解释性和安全性:** 提高模型的可解释性,确保生成的视频和预测对于验证和测试自动驾驶系统的安全性至关重要。
- **硬件和实时性能:** 优化模型以适应在车辆上的实时应用,考虑计算资源和能效。
- **模拟与现实世界的差距:** 缩小模拟生成数据与真实世界数据之间的差距,提高模拟测试的可靠性。

通过解决这些挑战,未来的基础模型有潜力在自动驾驶领域提供更高精度的感知能力,更好的泛化性,以及更加可靠和安全的自动驾驶系统。

4 多模态基础模型

多模态基础模型通过融合多种模态的输入数据,例如声音、图像和视频,来执行更为复杂的任务,例如从图像中生成文本,以及对视觉输入进行分析和推理。其中一个最著名的多模态基础模型是CLIP[Radford et al., 2021]。该模型采用对比预训练方法进行预训练。输入的是噪声图像和文本对,模型的训练目标是预测给定的图像和文本是否是正确的配对。模型通过最大化来自图像编码器和文本编码器的嵌入的余弦相似度来进行训练。CLIP模型在其他计算机视觉任务上展现出零样本迁移能力,例如图像分类,并且能够在没有监督训练的情况下预测正确的类别文本描述。

像LLaVA[Liu et al., 2023a]、LISA[Lai et al., 2023]和CogVLM[Wang et al., 2023a]这样的多模态基础模型可以用于通用视觉AI代理,它在视觉任务上展示出卓越性能,如对象分割、检测、定位和空间推理。Video-LLaMA[Zhang et al., 2023b]进一步能够理解视频和音频数据,这可能帮助自动驾驶车辆更好地从时序图像和音频序列中理解世界。

多模态基础模型也被用于机器人学习,它利用机器人动作作为一种新的模态,以创建更通用的代理,这些代理可以执行现实世界中的任务。DeepMind提出了一种视觉-语言-动作模型[Brohan et al., 2023],它通过网络上的文本和图像进行训练,并学会输出控制命令以完成现实世界中的物体操作任务。

通过将大规模预训练数据集中的通用知识迁移到自动驾驶,多模态基础模型可以用于物体检测、视觉理解和空间推理,从而使得在自动驾驶中应用更加强大。

### 4.1 视觉理解与推理

传统的物体检测或分类模型对于自动驾驶来说并不足够,因为我们需要更好地进行场景的语义理解和视觉推理,例如识别风险物体,以及理解交通参与者的意图。大多数现有的基于深度学习的预测和规划模型是黑箱模型,在发生事故或不适事件时,它们的可解释性和可调试性很差。借助多模态基础模型,我们可以生成模型的解释和推理过程,以更好地调查问题。

为了进一步改进感知系统,HiLM-D[Ding et al., 2023] 利用多模态基础模型进行ROLISP(风险物体定位及意图和建议预测)。它使用自然语言从摄像头图像中识别风险物体,并对本车辆的行动提出建议。为了克服漏检小物体的缺点,它提出了一个包含高分辨率和低分辨率分支的流水线。低分辨率推理分支用于理解高层次信息,并从连续的视频帧中识别风险物体;高分辨率感知分支进一步提升了物体检测和定位的质量。他们的模型骨干使用了预训练的视觉编码器和遵循BLIP2[Li et al., 2023]的LLM权重。

Talk2BEV[Dewangan et al., 2023] 提出了一种创新的鸟瞰图(BEV)场景表示方法,融合了视觉和语义信息。流水线首先从图像和激光雷达数据生成BEV图,并使用通用视觉-语言基础模型为物体的裁剪图像添加更详细的文本描述。然后将BEV图的JSON文本表示传递给通用LLM进行视觉QA操作,涵盖空间和视觉推理任务。结果显示了对详细实例属性的良好理解,以及对物体更高层次意图的理解,以及提供关于本车辆行动的自由形式建议的能力。

LiDAR-LLM[Yang et al., 2023a] 采用了一种新颖的方法,结合点云数据和大型语言模型的高级推理能力来解释真实世界的3D环境,并在3D字幕生成、定位和QA任务上取得了优异的表现。模型采用了独特的三阶段训练和视角感知变换器(VAT)来对齐3D数据和文本嵌入,增强了空间理解。他们的例子显示,模型能够理解交通场景,并为自动驾驶规划任务提供建议。

[Atakishiyev et al., 2023] 关注使用视觉QA方法对车辆行动的可解释性。他们收集了在模拟环境中的驾驶视频,涵盖5种不同的行动类别(如直行和左转),并使用手动标记的行动解释来训练模型。模型能够基于道路几何形状和障碍物的清晰度来解释驾驶决策。他们认为将最先进的多模态基础模型应用于生成车辆行动的结构化解释是有前景的。

### 4.2 统一感知与规划

[Wen et al., 2023b] 对GPT-4Vision[Achiam et al., 2023]在感知和规划任务中的应用进行了早期探索,并在几种场景下评估了其能力。研究表明,GPT-4Vision能够理解天气、交通标志和红绿灯,并识别场景中的交通参与者。它还能提供这些对象更详细的语义描述,如车辆尾灯、意图(比如掉头)、以及详细的车辆类型(例如水泥搅拌车、拖车和SUV)。它还展示了基础模型理解点云数据的潜力,GPT-4V能够从鸟瞰图图像中投射的点云轮廓识别出车辆。他们还评估了模型在规划任务上的性能。给定交通场景,要求GPT4-V描述其对车辆行动的观察和决策。结果显示,模型能够与其他交通参与者良好互动,并遵守交通规则和常识,例如保持安全距离跟随前车、在人行横道礼让自行车、在红灯亮起时保持停止。它甚至能够非常好地处理一些长尾场景,比如带门的停车场。

为了更好地将通用多模态基础模型适应自动驾驶任务,使用了指令调优。DriveGPT4[Xu et al., 2023]创建了一个指令遵循数据集,其中使用了ChatGPT、YOLOV8[Reis et al., 2023]和来自BBD-X数据集[Kim et al., 2018]的真实车辆控制信号生成关于常见物体检测、空间关系、交通灯信号和本车行动的问题及答案。遵循LLaVA的方法,它使用了预训练的CLIP[Radford et al., 2021]编码器和LLM权重,并用专为自动驾驶设计的指令遵循数据集对模型进行了微调。他们能够构建一个端到端的可解释的自动驾驶系统,该系统能够很好地理解周围环境,并根据法规和较低级别的控制指令做出车辆行动决策。

### 4.3 限制和未来方向

多模态基础模型展示了空间和视觉推理的能力,这是自动驾驶任务所需的。与在封闭数据集上训练的传统物体检测、分类模型相比,视觉推理能力和自由形式的文本描述可以提供更丰富的语义信息,这可以解决许多长尾检测问题,例如特殊车辆的分类,以及理解来自警察和交通指挥员的手势信号。多模态基础模型具有良好的泛化能力,并且可以使用常识很好地处理一些具有挑战性的长尾场景,例如在有控制入口的门前停车。通过进一步利用其推理能力进行规划任务,视觉-语言模型可以用于统一的感知规划和端到端的自动驾驶。

然而,在自动驾驶中多模态基础模型仍然存在局限性。[Wen et al., 2023b] 显示GPT-4V模型仍然受到幻觉的困扰,并在几个例子中生成不清晰的响应或错误答案。模型在利用多视角摄像头和激光雷达数据进行精确的3D物体检测和定位方面也显示出无能,因为预训练数据集只包含来自网络的2D图像。需要更多领域特定的微调或预训练,以训练多模态基础模型以更好地理解点云数据和传感器融合,以达到最先进的感知系统的性能水平。

未来的研究方向可能包括:

- **增强数据处理能力:** 对3D点云数据和传感器融合进行更深入的培训,以改进模型在处理这些数据方面的准确性和效率。
- **减少幻觉问题:** 开发更复杂的损失函数或正则化技术,以减少模型生成不切实际或不符合现实的响应。
- **提高多视角理解:** 通过在多视角环境中进行预训练或微调,提高模型对复杂场景的理解力。
- **长尾场景处理:** 通过包括更多边缘案例和罕见事件的数据,改进模型在处理长尾场景方面的能力。
- **规划和决策:** 结合先进的规划算法,以提高在动态和不确定的环境中做出决策的能力。
- **实时性能:** 提高模型的实时性能,以适应自动驾驶中对快速反应的需求。
- **安全性和可靠性:** 确保模型决策的安全性和可靠性,特别是在涉及人类生命的场景中。
- **解释性:** 提高模型决策的可解释性,以便工程师和最终用户可以理解模型的决策过程。

随着技术的进步,这些限制可能会被克服,从而使自动驾驶领域的多模态基础模型更加强大和实用。

### 5 结论与未来发展方向

我们总结并分类了近期使用基础模型在自动驾驶领域的研究论文。我们基于模态和自动驾驶的功能构建了一个新的分类体系。我们详细讨论了适应自动驾驶基础模型的方法和技术,例如上下文学习、微调、强化学习和视觉指令调整。我们还分析了自动驾驶中基础模型的局限性,例如幻觉、延迟和效率,以及数据集中的领域差距,并因此提出以下研究方向:

- 针对自动驾驶数据集进行特定领域的预训练或微调
- 强化学习,以及人在回路(Human-in-the-loop)校准,以提高安全性并减少幻觉
- 将2D基础模型适配到3D,例如语言引导的传感器融合、微调或少量样本学习在3D数据集上
- 延迟和内存优化、模型压缩和知识蒸馏,以便将基础模型部署到车辆中

我们还注意到,数据集是自动驾驶中基础模型未来发展的最大障碍之一。现有的开源自动驾驶数据集[Li et al., 2024]的规模仅为1000小时,远远少于用于最先进的大型语言模型(LLMs)的预训练数据集。现有基础模型使用的网络数据集并没有利用自动驾驶所需的所有模态,如激光雷达和环绕摄像头。网络数据领域也与真实驾驶场景大相径庭。

我们在图5中提出了更长远的未来发展路线图。在第一阶段,我们可以收集大规模的2D数据集,覆盖现实世界环境中驾驶场景的所有数据分布、多样性和复杂性,用于预训练或微调。大多数车辆可以配备前置摄像头,在不同的城市、一天中的不同时间收集数据。在第二阶段,我们可以使用较小但质量更高的3D数据集(带有激光雷达)来提高基础模型的3D感知和推理能力,例如,我们可以使用现有的最先进的3D物体检测模型作为教师来微调基础模型。最后,我们可以利用人类驾驶例子或标注在规划和推理中进行校准,达到自动驾驶的最高安全目标。

  • 34
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值