自动驾驶大模型论文调研与简述

作者 | 科研放大器  编辑 | 汽车人

原文链接:https://zhuanlan.zhihu.com/p/660463597

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心【大模型】技术交流群

本文只做学术分享,如有侵权,联系删文

最近关于大模型(LLMs, VLM)与自动驾驶相关文献调研与汇总:

适合用于什么任务?答:目前基本上场景理解、轨迹预测、行为决策、运动规划、端到端控制都有在做。

大家都怎么做的?

  1. 对于规控任务,LLM型基本是调用+Prompt设计,集中在输入和输出设计,如输入有 1.2 DiLu这种拼memory的,输出有1.1 LanguageMPC这种做cost function的,训练和微调的有1.3 Wayve的工作;有做开环的1.3,也有闭环的1.1 和1.2。目前仿真器和数据都未有统一的benchmark。

  2. 对于场景理解任务,大多数都在构建QA类型的数据集,常用数据集为nuScenes。

一、自动驾驶决策/规划任务:

1. 1 LanguageMPC: Large Language Models As Decision Makers For Autonomous Driving, 10.4

动机:学习型决策系统缺乏 理解、泛化和可解释性,LLM具备推理和泛化能力,如何作为决策器与下游控制器结合?Language-action对齐到了MPC的cost function。

方案

20e25fdaab99ddc365076677d6b79d14.png

LLM的任务1) 选择关键交互车辆 2)评估当前驾驶情况 3) 提供决策动作引导。下游控制器采用了MPC controller,Language-action的输出为 observation matrix, weight matrix, and action bias,前者对应的是关键交互车辆,后两者对应MPC中Cost function的参数项

6f679a2f8f0c31b1bf2bcf113ae5536e.png
对于上述3步所设计的prompts

实验环境:CARLA路口、环岛等。调用GPT3.5,定义输出action,输入非视觉可理解为将原先vector输入语言化。

1.2. DiLu: A Knowledge-Driven Approach to Autonomous Driving with Large Language Models, 9.28

动机:用LLM增强agent的泛化和可解释性。这篇文章的创新在于memory module的引入,是7月份Drive Like a Human的改进版,值得一看。

框架:用GPT3.5作为推理输出模块,用GPT4作为reflection模块。所有模块非fine-tuning,而是输入adaption

ef5104498c14594901edab8c04f7679b.png

有意思的结论:LLM cannot directly perform the closed-loop driving tasks without any adaptation. 通过记忆模块消融分析得到。

实验环境:HighwayEnv,闭环;加速,保持,跟车,换道等高层行为,没说decision decoder是什么,如何映射的高层行为到底层控制。对比基线为 RL。

1.3 Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving,10.3 Wayve

动机:OOD的推理和可解释能力;对于目标级输入构建LLM的预训练和微调方法,开放驾驶QA数据和评估基线。还有一个相关blog: LINGO-1: Exploring Natural Language for Autonomous Driving

4569de8d04c23a391f4f8d7c484bcc87.png

方法:action teacher:RL teacher;QA teacher:GPT teacher;

一个结构化的语言生成器(lanGen):基于数值向量来产生prompt模版;使用RL产生专家动作O_{rl},100k问答数据从仿真器收集 (包括表征学习,推理任务:action预测,attention预测)

6cf2356ed53f4b1a89d113ac4a6ad669.png

驾驶问答数据标注:使用ChatGPT来自动产生问答数据, 10k

a3841bd2e9253f3cf660bd18823a121d.png

训练过程:第一阶段 训练vectorformer,输入为高维的vector向量信息 第二阶段:利用QA问答数据来finetuning LLaMA-7b

17efa97a349d8679525bfcf9fdadbbdd.png

实验:在1000个不同驾驶场景中评估,指标为感知和预测精度;在开放世界场景中评估,通过ChatGPT来评估得分。要求20GB显存来评估,40GB显存来训练。

1.4 GPT-DRIVER: LEARNING TO DRIVE WITH GPT,10.2

动机:推理能力和泛化

方法:1. planner inputs and outputs as language tokens 2. a novel prompting-reasoning-finetuning strategy

41846e3813a6e9e1e526d931fbf76101.png

输入语言token化,使用的UniAD的感知和预测结构,输出思维链与上一篇类似,LLM先输出关键交互车、再判断行为决策动作,最后输出轨迹。对chatGPT做了fine-tuning

实验环境:NuScenes,开环,对比UniAD

0d6b8fd396d1d476825c57e74660d0e3.png

1.5 Drive as You Speak: Enabling Human-Like Interaction with Large Language Models in Autonomous Vehicles,9.19

动机:LLM赋能

  • Language Interaction

  • Contextual Understanding and Reasoning

  • Zero-Shot Planning

  • Continuous Learning and Personalization

  • Transparency and Trust

61ce1b727066359e1123cdc4d114db05.png

方案:更多探索人机协同,驾驶员给予指令,LLM ChatGPT 4获取感知结果,输出决策行为。没有给实验,只给了上图的case

1.6 Receive, Reason, and React: Drive as You Say with Large Language Models in Autonomous Vehicles, 10.12

同1.5,进一步分析了ICL,CoT,Personalization方面的能力。

1.7 A Language Agent for Autonomous Driving, 11.17 (单位有Nvidia)

动机:用Agent框架重塑自动驾驶系统,Agent Driver,三个重要组件:tool library;cognitive memory;reasoning engine;

27fb5362c21474fa105741e3246ca4d8.png

方法:输入为sensory data;输出为轨迹;

Tools:抽象不同网络输出并转化为text文本,即LLM调用tools来收集文本形式的环境信息;tool库是4类神经网络模型 检测(产生检测结果)、预测(产生预测结果)、占据栅格、地图,但模型产生的信息过于冗余,LLM-based tools目的是为了从冗余的信息中提取到必要的环境信息。

Cognitive memory:基于环境信息query来搜索traffic rules (纯文本形式;可以认为是考驾照科目1的学习材料) 和 similar past experience(环境信息和decision);past experience记忆搜索形式:vector-space KNN + LLM-based fuzzy search

Reasoning:LLM-based CoT作为推理引擎,最终输出轨迹,形式如GPT-Driver,自我反思部分基于碰撞检测和优化方法;如果碰撞检测到危险,会利用优化cost function形式将LLM 产生的轨迹进行优化;

f6b1c59859ce7ae8aef9db1da7076a11.png

实验还是在Nusenses数据集上的开环评测,对标的是UniAD和GPT-Driver,消融分析了ICL和fine-tuning的性能差异,结论是ICL是首选。

1.8 A Multi-Task Decision-Making GPT Model for Autonomous Driving at Unsignalized Intersections 6.30

不是大模型,trained PPO作为teacher,收集多任务教师数据用的 decision Transformer训多任务策略。没太多可看的。

二、 轨迹预测

2.1 Can you text what is happening? Integrating pre-trained language encoders into trajectory prediction models for autonomous driving,9.13 Bosch

动机:可以将LLM看作foundation model,集成视觉特征和文本特征,进行轨迹预测获得最好效果

方案:由于GPT系列难以得到中间feature,对于文本使用的是DistilBert,对于BEV使用了BEiT作为encoder,

b76c26d7e7ffa3c9ca1d47217f835986.png 3bf11a8769b626c0390575ccd8ab2719.png

2.2 MotionLM: Multi-Agent Motion Forecasting as Language Modeling, ICCV, 2023, Waymo

动机:autoregressive language models作为多智能体轨迹预测模型,在waymo交互预测任务取得SoTA

方案:使用的是LLM类似的自回归transformer decoder,但chatGPT本身没有太大联系。可以同时decoder多个智能体,不开源,

ab7b0f1d170d6a43885fa6340a1c0e56.png

三、端到端控制任务:

3.1 DRIVEGPT4: INTERPRETABLE END-TO-END AUTONOMOUS DRIVING VIA LARGE LANGUAGE MODEL,10.2

动机:可解释性、泛化性。同时多模态大模型还可处理图像和视频数据;可解释性端到端模型,用黑盒解释黑盒,具备了人机交互层面的可解释性。

数据集生成:在BDDK的16k固定问答数据上,用chatGPT产生了新的12k问答数据

模型训练:使用Valley将video token转化为语言token,LLM使用了LLaMA 2;预训练阶段只训练video tokenizer;fine-tuning阶段LLM和video tokenizer在29k数据上一起微调,同时为了保障它的问答能力,还在80k的问答数据上一起微调

69a3780d4baa032e305139472ba9b974.png

实验环境:开环,视觉输入,BDD-K,对比基线为ADAPT,metric:使用了ChatGPT打分。

3.2 ADAPT: Action-aware Driving Caption Transformer,ICRA,2023,开源代码,中文解读

动机:端到端模型的可解释性

方法:连续多帧图像输入,预训练的video swin transformer 得到video tokens,预测控制信号和文本输出。

f09e10ff138987cce0924b6b45193278.png

实验环境:开环,BDD-K,具体见中文解读。

四、多视角视觉输入场景理解:

4.1 Language Prompt for Autonomous Driving,9.8

动机:缺少多视角输入的language prompt-instance 数据

方案:第1步:3D目标检测,目标包括4类属性 color,class,action,location, 手工标注13k目标;第2步:属性与或非操作的组合;第3步:让GPT3.5产生描述的language prompt,35k. 基于nuScenes数据集。

43d1a5429c1370751f89cdd2e8cb22ae.png

基于此数据集,做了prompt输入的多目标跟踪任务。整体效果为:利用视觉和language prompt,可以检测和跟踪多视角连续帧输入的目标。

1ade24c7cbc2d9736df00eba248fa1d2.png

4.2 3D DENSE CAPTIONING BEYOND NOUNS: A MIDDLE-WARE FOR AUTONOMOUS DRIVING

动机:目前缺少衔接 感知和规划的3D场景理解的LLM数据集,3D dense captioning

方案:3D目标属性:Appearance Direction Distance Motion Road Map

65a522bc84a2b87c9b9e162e328237d8.png 738c8aaa05c292b14712e45610c49ba4.png

4.3 Talk2BEV: Language-enhanced Bird’s-eye View Maps for Autonomous Driving

与3.2类似,是对BEV input做了语言prompt.

b76c259082f06df684c6684b31e0d502.png 3a2b138a5169e6b7d1360253198caf5a.png

4.4 DriveLM: Drive on Language, OpenDriveLab

LLM将用于感知、预测和规划任务,graph of thouht. 相比于3.2,多做了预测和规划。在nuScenes上360k annotated QA pairs。目前只开源了demo样例。

6e60da17cced6c07392890e8c54d8c8d.png

4.5 HiLM-D: Towards High-Resolution Understanding in Multimodal Large Language Models for Autonomous Driving,9.11

动机:对于非高清图片,目前预训练的多模态大模型往往会漏掉小目标、过分关注大目标(由于预训练数据为低分辨率图片)。本文感知关注的是关键风险目标,还输出预测和主车决策建议,

2cbfeade73483084a2fb252c176200f0.png
动机图

方案:提出了用高清图片分支辅助低分辨率分支,在23年CVPR的DRAMA数据集上进行了实验,包括关键风险目标的检测、预测目标意图和给出驾驶建议。

7dcc4e6059fd04392de3e28948e10e75.png

五、场景或数据生成

5.1 Language-Guided Traffic Simulation via Scene-Level Diffusion,Nvidia,CoRL, 2023

动机:基于语言表述生成openscenarios格式的场景

方案:利用GPT4产生引导loss,引导扩散模型来产生指定场景

589bf8f8355148ec815a4d1665c784bd.png

5.2 SurrealDriver: Designing Generative Driver Agent Simulation Framework in Urban Contexts based on Large Language Model,9.22

驾驶场景的可控生成,将会成为LLM的潜力方向。

4230001c499e8c3d631a13449b907836.png

5.3 WEDGE: A multi-weather autonomous driving dataset built from generative vision-language models,2023, CVPR workshop

动机:缓解OOD问题,利用DALL-E生成增广图片数据

0c00ff12c85fa293a283ffcf080cd2e6.png

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署协同感知语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

3ed22ee4774dc40172f022649401ee68.png 视频官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

近2000人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

7906ca6e9bc99e61e5e6703e2881497b.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

4d2bfa6912cc581e2b84e5a0cabf45e2.jpeg

④【自动驾驶之心】平台矩阵,欢迎联系我们!

59c6e2cb1c4b46826e88f049372dfb1d.jpeg

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值