Drive MLM:探索自动驾驶的 GPT 时刻

近年来,自动驾驶技术正以惊人的速度驶入现实生活,重构人们的未来出行和生活方式。科幻电影中的超级英雄们的智能汽车频频「闯」进现实:远程召唤和操控汽车、记忆行车、自适应巡航等功能屡见不鲜。借助智驾功能,人们驾驶时不再需要全程紧绷神经,并且能够享受更轻松的旅程。

但智能驾驶向更高阶的「自动驾驶」演进,还面临一个关键问题:

如何「像人一样优雅地开车」? 

「规则」难出老司机,「大模型」打破僵局

经验丰富的人类司机在面对复杂、突发交通状况时,能够仅凭「视觉」和多年来的驾驶「直觉」,做出的瞬时决策

而传统自动驾驶系统采用「模块化」研发模式:由感知、预测、规控等主要模块算法构成,各模块间的研发相对独立。不同模块任务的优化目标不一致,且每个模块存在累积误差,其误差又会影响下一个模块。

此外,在规控等模块的研发中,常通过手写规则来应对各类自动驾驶的长尾场景(corner case),比如:遇到形态各不相同的特殊车辆、台风天路边翻倒的树枝、横在马路中间的塑料袋等。但现有的规则算法依旧难以应对此类广泛、无法穷尽的场景。

图片


长尾场景无法穷尽

因此,自动驾驶车辆在复杂开放的交通路段中驾驶结果往往差强人意。

近期,通过数据驱动的端到端自动驾驶系统逐渐成为行业焦点。

早在 23 年 6 月,商汤科技及其联合实验室在 23 年 6 月发布 CVPR 最佳论文《最近商汤及联合实验室的论文《Planning-oriented Autonomous Driving(UniAD)》(以路径规划为导向的自动驾驶)中,就首次提出了感知决策一体化的自动驾驶通用大模型 UniAD将检测、跟踪、建图、轨迹预测,占据栅格预测以及规划整合到一个基于 Transformer 的端到端网络框架下,具有「多任务」和「高性能」的特点,并通过数据驱动,学习路径规划和车辆控制的方式,来解决「近乎无穷」的长尾场景以及模型的泛化性问题。

但 UniAD 的自动驾驶决策仍然缺乏可解释性,并且需要大量行驶数据「炼」成。

除此以外,更加人性化、智能的自动驾驶系统,需要基于现实驾驶场景和突发情况,主动与驾乘用户交互、理解并根据用户需求调整驾驶路线规划。

大语言模型(Large Language Model,LLM)和多模态大模型(Multi-modal Large Language Model,MLLM)更为完善的世界知识体系、先进的认知能力、强大的逻辑推理能力,让其具备成为自动驾驶系统决策器的能力,提供如「老司机」的自动驾驶体验。现阶段业内对于多模态大模型落地自动驾驶的研究方向主要包括:

  • 针对驾驶场景生成自然语言描述;

  • 直接利用多模态大模型输出控制信号或轨迹,并进行开环评价(比较预测轨迹与司机驾驶轨迹的差异)。

然而,大语言模型的输出语言抽象而多样,前者通常无法直接用于车辆控制;后者的开环指标存在较大争议,暂时不能反映模型的实际驾驶能力。

Drive MLM :「端到端」落地重要一步

我们提出的 Drive MLM 方案是首个可以在闭环测试中同时超过端到端自动驾驶系统方案和基于规则的自动驾驶算法方案,在 CARLA Town05Long Benchmark 中达到了 76 的驾驶得分

除此以外,Drive MLM 模型同时还具备环境感知能力,以及通过整合思维链来生成对应的决策解释,从而实现透明可控的自动驾驶系统

图片


Drive MLM 与 基于规则的算法及 UniAD 的算法框架对比

以下为 Drive MLM 的整体框架,包含三个主要元素:行为规划状态对齐、MLLM Planner、高效的数据收集策略

图片


Drive MLM 算法框架

  • 行为规划:大语言模型的决策转化为车辆控制信号

将大语言模型的语言决策输出,与成熟模块化的自动驾驶系统的规划和控制模块中的决策状态对齐,大模型语言的输出可以进一步转化为车辆控制信号。

具体来说,将决策过程分为速度决策和路径决策两个部分,大语言模型分别给出速度决策和路径决策:

1.)速度决策部分的输出信号包含:定速(keep)、加速(accelerate)、减速(decelerate),停止(stop);

2.)路径决策部分的输出信号包括:跟随(follow)、左转(left-change)、右转(right-change)、左借道绕行(left-borrow),右借道绕行(right-borrow)。

  • MLLM Planner:多模态信息集有效输入输出的核心

MLLM Planner 模块包含多模态分词器(Multi-modal tokenizer)和多模态解码器(MLLM decoder)。

首先由多模态分词器将涵盖了时序多视图图像、激光雷达点云、系统信息和用户需求的信号输入,转化为统一的 token embedding

多模态分词器在各模态信息输入的处理上进行如下操作:

1.)时序多视图图像处理:通过 VIT-g 提取特征,结合 temporal QFormer 构建时序图像信息;

2.)激光雷达点云处理:使用稀疏金字塔 Transformer(Sparse Pyramid Transformer,SPT)提取激光雷达点云特征,通过 Qformer 获得 Embedding;

3.)系统信息和用户指令处理:将其统一作为常规文本处理,并使用大语言模型的 token embedding 层进行提取。

作为决策模块的核心之一,多模态解码器基于得到的 token 生成图片描述、决策推理和驾驶决策等内容。

  • 高效训练:CARLA自动驾驶仿真场景数据收集

我们通过高效的数据采集策略,为模型的微调提供优化数据,将大模型语言的输出与自动驾驶场景的需求对齐

其中,Drive MLM 的数据收集主要采用 CARLA 仿真器训练数据 —— 自动驾驶领域最主要的开源仿真工具和闭环测试基准。

首先我们在 CARLA 中构建了各种安全关键的自动驾驶仿真场景。

然后通过机器和人工采集的方式,在 CARLA 中收集了时长 280 小时、包含 50,000 条路线和 30 种不同天气、照明条件的场景数据,以此训练 Drive MLM。

训练的每帧数据包括对应的图片描述、决策推理和驾驶决策三部分。

图片

相比传统自动驾驶数据训练,Drive MLM 数据训练过程中主要有两点不同:

一是决策部分能够与实际行为决策模块对齐,由此我们能够将 MLLM 规划器的输出转换为控制信号,直接控制闭环驾驶中的车辆;

二是包含与人类的交互数据,可以提高系统理解人类指令并做出反应的能力。

图片

Drive MLM :多维度 Battle ,驾驶体验更加人性化

  • Town05Long 测试比分

我们在评估 Drive MLM 闭环驾驶性能时,采用 CARLA 中广泛使用的 Town05Long 测试基准,并以下列三大指标作为评估标准:

1.)路线完成度(RC):计算代理完成路线的平均百分比。

2.)违规得分(IS):介于 0 和 1 之间的折扣系数,用以度量违规处罚,包括碰撞、违反交通规则等。

3.)驾驶得分(DS): RC 和 IS 的乘积。

驾驶得分(DS)是路线完成率和违规惩罚系数的乘积,测试的里程数越长,遇到的场景越多,违规(IS)的系数会越低;而有些方案测试的里程数低,所以违规(IS)的系数反而越高。

因此,我们结合使用了业内的重要指标:平均每次接管的行驶里程间隔(Miles per Intervention,MPI)来评估不同模型的性能。在测试过程中,如果自动驾驶车辆违反交通规则或发生碰撞,将被接管并驾驶到最近的安全位置,然后继续行驶到目的地。

以下为不同算法在 Town05Long 上的测试结果:

图片

DriveMLM 的驾驶得分(Driving Score)和路线完成度(Route Completion)大幅领先于其他算法,并在 MPI 指标上更具优势,相比其他非大模型算法方案,Drive MLM 能够在遵守交规驾驶的同时提供更安全、人性化的驾驶体验。

  • 自动驾驶场景挑战:决策智能,可解释性强

DriveMLM 经过了大量通用图文数据的训练,具备强大的开集识别能力和推理能力,能够更加合理、准确地决策,处理更为复杂的场景情况。

i.障碍物、特殊车辆主动避让

针对多种自动驾驶场景任务,Drive MLM 能够识别各种长尾障碍物,采取合理的避让决策,并做出相应决策的解释。

图片


多种特殊车辆避让:救护车避让(左),警车避让(右)

图片


前方未知障碍物避让:交通牌避让(左),对路中央翻倒衣架避让(右)

图片


前车较慢,进行自主超车

图片


「鬼探头」情况处理

ii.决策更合理

与其他的语言模型做对比,也能够看到 Drive MLM 对自动驾驶场景的决策预测和解释更具合理性。

图片

iii.主动交互,驾驶体验更智能

同时,Drive MLM 也能够与乘客主动进行交互,理解乘客需求并进行决策:

当乘客提出赶时间需要超车的时,在实际路况中,前车行驶较慢、左变道允许时,Drive MLM 会进行左变道加速超车,以满足乘客需求;而当左车道被占用,右车道不允许变道时,Drive MLM 会跟随前车并进行降速处理。

图片

iv.开发效率大幅提高

此外,由于使用了 MLM,还可以通过 prompt 的方式对模型进行控制。

如下方所示,通过使用语言指令来描述特殊要求,比如通过修改 system prompt 中的交通规则来更改 MLLM 规划器输出的决策,可以方便地实现对模型的控制和调整。

图片

v.真实驾驶场景零样本能力

最后,我们还基于 nuScenes 验证集(真实驾驶场景数据)上,测试了 Drive MLM 的零样本能力

如下图所示, DriveMLM 能够识别现实环境中的红灯并停车(左)、推断现实十字路口的位置并提前减速(右)。

图片

尽管目前自动驾驶系统取得了显著的进展,但现有的方法依然会受到研发专家知识、训练数据的多样性等因素的限制,因此自动驾驶「最后一公里」难点一直难以真正突破

借助语言大模型强大的通用能力,我们提出的 DriveMLM 框架可以来实现更广泛的场景元素识别、更合理的决策推理,实现更优的性能、更强的交互能力和可解释能力,让自动驾驶真正成为「自动」、「智能」、「人性」的自动驾驶系统,开启人类出行方式的新想象。

  • 22
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值