入行自动驾驶大语言模型，这80篇论文不得不读

最新推荐文章于 2024-10-03 22:26:32 发布

自动驾驶之心

最新推荐文章于 2024-10-03 22:26:32 发布

阅读量106

点赞数 1

文章标签：自动驾驶语言模型人工智能机器学习自然语言处理

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247621417&idx=1&sn=c93cea13a01effa164b12b74d3c47d35&chksm=cfdfbd225a8277d611c50a40d659c3eed1f8ed53684c5784a18972f20dc499c58406f9f56f53&scene=126&sessionid=0

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心团队为大家分享大语言模型结合自动驾驶的文章盘点！近80篇论文共九大方向！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『大语言模型』技术交流群

编辑 | 自动驾驶之心

写在前面

自动驾驶之心团队近期汇总了下大语言模型与自动驾驶结合的相关文章，感慨这一年多以来发展真的很快！大语言模型已经与自动驾驶深度结合，在各个子领域百花齐放。从Planning、QA、生成、数据集到感知、评测等等，遍地开花！近80篇论文，九大方向的全面汇总，欢迎大家转发交流~

Planning

[1] Asynchronous Large Language Model Enhanced Planner for Autonomous Driving（ECCV2024）

论文链接：https://arxiv.org/abs/2406.14556

清华AIR ECCV'24的工作：尽管实时规划器在自动驾驶中表现出色，但对大型语言模型（LLM）的不断探索为提高运动规划的可解释性和可控性开辟了道路。然而基于LLM的规划器面临重大挑战，包括资源消耗增加和推理时间延长，这对实际部署构成了重大障碍。鉴于这些挑战，本文引入了AsyncDriver，这是一种新的异步LLM增强闭环框架，旨在利用LLM产生的场景相关指令特征来指导实时规划者进行精确可控的轨迹预测。一方面，我们的方法突出了LLM在理解和推理矢量化场景数据和一系列路径指令方面的能力，证明了它对实时规划的有效帮助。另一方面，所提出的框架将LLM和实时规划者的推理过程解耦。通过利用其推理频率的异步特性，我们的方法成功地降低了LLM引入的计算成本，同时保持了可比的性能。实验表明，我们的方法在nuPlan的挑战性场景中实现了卓越的闭环评估性能。

[2] PlanAgent: A Multi-modal Large Language Agent for Closed-loop Vehicle Motion Planning

论文链接：https://arxiv.org/abs/2406.01587

理想汽车的工作：车辆运动规划是自动驾驶技术的重要组成部分。当前基于规则的车辆运动规划方法在常见场景中表现良好，但很难推广到长尾情况。同时，在大规模闭环场景中，基于学习的方法尚未达到优于基于规则的方法的性能。为了解决这些问题，我们提出了PlanAgent，这是第一个基于多模态大语言模型（MLLM）的 mid-to-mid规划系统。MLLM被用作认知代理，将类人知识、可解释性和常识推理引入闭环规划。具体来说，PlanAgent通过三个核心模块利用MLLM的强大功能。首先，环境转换模块从环境中构建鸟瞰图（BEV）地图和基于车道图的文本描述作为输入。其次，推理引擎模块引入了从场景理解到横向和纵向运动指令的分层思维链，最终生成了规划器代码。最后，集成了一个反射模块来仿真和评估生成的规划器，以降低MLLM的不确定性。PlanAgent具有MLLM的常识推理和泛化能力，使其能够有效地处理常见和复杂的长尾场景。我们提出的PlanAgent是在大规模和具有挑战性的nuPlan基准上进行评估的。一组全面的实验令人信服地证明，PlanAgent在闭环运动规划任务中的表现优于现有的最先进技术。代码将很快发布。

[3] OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception Reasoning and Planning

论文链接：https://arxiv.org/abs/2405.01533

北理工&英伟达的工作：多模态大型语言模型（MLLM）的进步导致人们对基于LLM的自动驾驶代理越来越感兴趣，以利用其强大的推理能力。然而，利用MLLM强大的推理能力来改善规划行为是具有挑战性的，因为规划需要超越2D推理的完全3D态势感知。为了应对这一挑战，本文提出了一个整体框架，用于在代理模型和3D驱动任务之间进行强对齐。我们的框架从一种新颖的3D MLLM架构开始，该架构使用稀疏查询将视觉表示提升并压缩为3D，然后再将其输入LLM。这种基于查询的表示允许我们联合编码动态目标和静态地图元素（例如交通车道），为3D中的感知-动作对齐提供一个压缩的世界模型。我们进一步提出了OmniDrive nuScenes，这是一种新的视觉问答数据集，通过全面的视觉问答（VQA）任务，包括场景描述、交通规则、3D基础、反事实推理、决策和规划，挑战了模型的真实3D情境感知。广泛的研究表明了所提出架构的有效性，以及VQA任务在复杂3D场景中推理和规划的重要性。

[5] AGENTSCODRIVER: Large Language Model Empowered Collaborative Driving with Lifelong Learning

论文链接：https://arxiv.org/pdf/2404.06345.pdf

香港城市大学的工作：近年来互联和自动驾驶技术发展迅速。然而目前的自动驾驶系统主要基于数据驱动的方法，在可解释性、泛化和持续学习能力方面存在不足。此外，单车自动驾驶系统缺乏与其他车辆的协作和协商能力，这对自动驾驶系统的安全性和效率至关重要。为了解决这些问题，我们利用大型语言模型（LLM）开发了一个新的框架AgentsCoDriver，使多辆车能够进行协同驾驶。AgentsCoDriver由五个模块组成：观察模块、推理引擎、认知记忆模块、强化反射模块和通信模块。随着时间的推移，它可以通过与环境的不断互动来积累知识、教训和经验，从而使自己能够终身学习。此外，通过利用通信模块，不同的代理可以在复杂的流量环境中交换信息并实现协商和协作。大量的实验表明了AgentsCoDriver的优越性。

[6] LeGo-Drive: Language-enhanced Goal-oriented Closed-Loop End-to-End Autonomous Driving

论文链接：https://arxiv.org/abs/2403.20116

现有的视觉语言模型（VLM）基于其丰富的场景理解，估计长期轨迹航路点或一组控制动作作为闭环规划的反应性解决方案。然而，这些估计是粗略的，并且对其“世界理解”是主观的，这可能会由于感知错误而产生次优决策。在本文中，我们介绍了LeGo-Drive，它旨在通过基于给定的语言命令估计目标位置来解决这个问题，作为端到端设置中的中间表示。估计的目标可能落在一个不理想的区域，比如在汽车顶部进行停车式指挥，导致规划不足。因此，我们建议以端到端的方式训练架构，从而共同迭代改进目标和轨迹。我们通过在不同模拟环境中进行的综合实验验证了我们方法的有效性。我们报告称，标准自动驾驶指标有了显著改善，目标是达到81%的成功率。我们进一步展示了LeGo Drive在不同驾驶场景和语言输入中的多功能性，强调了其在自动驾驶汽车和智能交通系统中的实际部署潜力。

[7] Hybrid Reasoning Based on Large Language Models for Autonomous Car Driving

论文链接：https://arxiv.org/abs/2402.13602v3

大型语言模型（LLMs）因其理解文本和图像、生成类人文本以及执行复杂推理任务的能力而受到广泛关注。然而他们将这种高级推理与自然语言文本相结合，在动态情况下进行决策的能力需要进一步探索。在这项研究中，我们研究了LLM如何适应和算法和常识推理的组合，特别是在自动驾驶场景中。我们假设LLMs的混合推理能力可以通过使它们能够分析检测到的物体和传感器数据、理解驾驶规则和物理定律，并提供额外的背景来改善自动驾驶。这解决了复杂的情况，比如在低能见度（由于天气条件）下的决策，传统方法可能无法满足这些情况。我们通过将大型语言模型（LLM）的答案与CARLA中人类生成的地面真实情况进行比较，基于准确性对其进行了评估。结果表明，当图像（检测到的物体）和传感器数据的组合被输入LLM时，它可以在各种天气条件下为自动驾驶汽车的制动和油门控制提供精确的信息。这种公式和答案可以帮助自动驾驶系统的决策。

[8] Large Language Models Powered Context-aware Motion Prediction

论文链接：https://arxiv.org/pdf/2403.11057.pdf

清华大学的工作：运动预测是自动驾驶中最基本的任务之一。传统的运动预测方法主要对地图的矢量信息和交通参与者的历史轨迹数据进行编码，缺乏对整体交通语义的全面理解，这反过来又影响了预测任务的性能。在本文中，我们利用大型语言模型（LLMs）来增强运动预测任务的全局交通上下文理解。我们首先进行了系统的提示工程，将复杂的交通环境和交通参与者的历史轨迹信息可视化为图像提示——交通上下文图（TC Map），并附有相应的文本提示。通过这种方法，我们从LLM中获得了丰富的交通上下文信息。通过将这些信息整合到运动预测模型中，我们证明了这种上下文可以提高运动预测的准确性。此外，考虑到与LLM相关的成本，我们提出了一种具有成本效益的部署策略：使用0.7%的LLM增强数据集大规模提高运动预测任务的准确性。

[10] DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

论文链接：https://arxiv.org/abs/2402.12289

清华&理想的工作：城市环境中自动驾驶的一个主要障碍是理解复杂和长尾的场景，例如具有挑战性的道路条件和微妙的人类行为。我们介绍DriveVLM，这是一种利用视觉语言模型（VLM）增强场景理解和规划能力的自动驾驶系统。DriveVLM集成了用于场景描述、场景分析和分层规划的推理模块的独特组合。此外，认识到VLM在空间推理和繁重计算要求方面的局限性，我们提出了DriveVLM-Dual，这是一种混合系统，将DriveVLM的优势与传统的自动驾驶管道相结合。在nuScenes数据集和我们的SUP-AD数据集上的实验证明了DriveVLM和DriveVLM Dual在处理复杂和不可预测的驾驶条件方面的有效性。最后，我们在生产车辆上部署了DriveVLM Dual，验证了它在现实世界的自动驾驶环境中是有效的。

[11] Driving Everywhere with Large Language Model Policy Adaptation（CVPR2024）

论文链接：https://arxiv.org/abs/2402.05932

英伟达&南加州大学的工作：使驾驶行为适应新的环境、习俗和法律是自动驾驶领域的一个长期问题，阻碍了自动驾驶汽车（AV）的广泛部署。在这篇论文中，我们介绍了LLaDA，这是一种简单而强大的工具，通过使人类驾驶员和自动驾驶汽车的任务和运动计划适应新地点的交通规则，使其能够在任何地方行驶。LLaDA通过利用大型语言模型（LLM）在解释当地驾驶员手册中的交通规则时令人印象深刻的零样本可推广性来实现这一点。通过广泛的用户研究，我们表明LLaDA的指令在消除野生意外情况的歧义方面很有用。我们还展示了LLaDA在真实数据集中调整AV运动规划策略的能力；LLaDA在所有指标上都优于基线规划方法。

[12] LimSim++（IV 2024）

论文链接：https://arxiv.org/abs/2402.01246

上海AI Lab和浙大的工作：多模态大型语言模型（MLLMs）的出现为人工智能开辟了新的途径，特别是通过提供增强的理解和推理能力来实现自动驾驶。本文介绍了LimSim++，这是LimSim的扩展版本，专为MLLM在自动驾驶中的应用而设计。LimSim++承认现有仿真平台的局限性，满足了对长期闭环基础设施的需求，支持自动驾驶的持续学习和改进的泛化能力。该平台提供持续时间较长的多场景模拟，为MLLM驱动的车辆提供关键信息。用户可以参与即时工程、模型评估和框架增强，使LimSim++成为研究和实践的通用工具。本文还介绍了一个基线MLLM驱动的框架，该框架通过不同场景的定量实验进行了系统验证。

[13] VLP: Vision Language Planning for Autonomous Driving（CVPR 2024）

论文链接：https://arxiv.org/abs/2401.05577

美国雪城大学&博世的工作：自动驾驶是一项复杂而具有挑战性的任务，旨在通过场景理解和推理进行安全的运动规划。虽然纯视觉自动驾驶方法最近取得了显著的性能，但通过增强场景理解，仍需要解决几个关键问题，包括缺乏推理、泛化性能低和长尾场景。在本文中，我们提出了VLP，这是一种新的视觉语言规划框架，它利用语言模型来弥合语言理解和自动驾驶之间的差距。VLP通过加强源记忆基础和自动驾驶汽车的上下文理解来增强自动驾驶系统。与之前的最佳方法相比，VLP在具有挑战性的NuScenes数据集上实现了最先进的端到端规划性能，平均L2错误率和碰撞率分别降低了35.9%和60.5%。此外，VLP在具有挑战性的长尾场景中表现出更好的性能，在面对新的城市环境时具有很强的泛化能力。

[14] LLM-ASSIST: Enhancing Closed-Loop Planning with Language-Based Reasoning

论文链接：https://arxiv.org/abs/2401.00125

尽管规划是自动驾驶模块化方法的关键组成部分，但研究人员尚未开发出能够安全处理各种可能驾驶场景的稳健规划算法。基于学习的规划者存在过拟合和长尾性能差的问题。另一方面，基于规则的规划者可以很好地概括，但可能无法处理需要复杂驾驶操作的场景。为了解决这些局限性，我们研究了利用GPT4和Llama2等大型语言模型（LLM）的常识推理能力来生成自动驾驶汽车计划的可能性。特别是，我们开发了一种新型的混合规划器，该规划器利用了传统的基于规则的规划器和基于LLM的规划器。在LLM常识推理能力的指导下，我们的方法可以驾驭现有规划者难以应对的复杂场景，产生合理的输出，同时通过与基于规则的方法一起工作来保持基础。通过对nuPlan基准的广泛评估，我们实现了最先进的性能，在大多数指标上优于所有现有的纯学习和基于规则的方法。

[15] DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous Driving

论文链接：https://arxiv.org/abs/2312.09245

上海AI Lab&港中文&商汤等团队的工作：大型语言模型（LLMs）为智能代理开辟了新的可能性，赋予了它们类似人类的思维和认知能力。在这项工作中，我们深入研究了大型语言模型（LLM）在自动驾驶（AD）中的潜力。我们介绍了DriveMLM，这是一个基于LLM的AD框架，可以在现实模拟器中执行闭环自动驾驶。为此，（1）我们通过根据现成的运动规划模块标准化决策状态，弥合了语言决策和车辆控制命令之间的差距。（2）我们采用多模态LLM（MLLM）对模块AD系统的行为规划模块进行建模，该模块使用驾驶规则、用户命令和来自各种传感器（如摄像头、激光雷达）的输入作为输入，做出驾驶决策并提供解释；该模型可以在现有的AD系统（如阿波罗）中即插即用，用于闭环驱动。（3）我们设计了一个有效的数据引擎来收集数据集，该数据集包括决策状态和相应的解释注释，用于模型训练和评估。我们进行了广泛的实验，结果表明我们的模型在CARLA Town05 Long上获得了76.1的驾驶分数，在相同的设置下比阿波罗基线高出4.7分，证明了我们模型的有效性。我们希望这项工作可以作为LLM自动驾驶的基准。

[16] LMDrive: Closed-Loop End-to-End Driving with Large Language Models

论文链接：https://arxiv.org/abs/2312.07488

MMLab & 商汤的工作：尽管最近在自动驾驶领域取得了重大进展，但现代方法仍然很困难，在遇到长尾不可预见的事件和具有挑战性的城市场景时，可能会发生严重事故。一方面，大型语言模型（LLM）显示出令人印象深刻的推理能力，接近“通用人工智能”。另一方面，以前的自动驾驶方法往往依赖于有限的格式输入（例如传感器数据和导航航路点），限制了车辆理解语言信息和与人类互动的能力。为此，本文介绍了LMDrive，这是一种新型的语言引导、端到端、闭环自动驾驶框架。LMDrive独特地处理和集成了多模态传感器数据和自然语言指令，使其能够在现实的教学环境中与人类和导航软件进行交互。为了促进基于语言的闭环自动驾驶的进一步研究，我们还公开发布了相应的数据集，其中包括大约64K的指令跟踪数据片段，以及测试系统处理复杂指令和具有挑战性的驾驶场景的能力的LangAuto基准。进行了广泛的闭环实验来证明LMDrive的有效性。据我们所知，我们是第一个利用LLM进行闭环端到端自动驾驶的工作。

[17] Empowering Autonomous Driving with Large Language Models: A Safety Perspective

论文链接：https://arxiv.org/abs/2312.00812

西北大学的工作：自动驾驶（AD）在长尾不可预见的驾驶场景中遇到了重大的安全障碍，主要源于AD系统内深度神经网络的不可解释性和泛化能力差，特别是在分布不均和数据不确定的情况下。为此，本文探讨了将大型语言模型（LLM）集成到AD系统中，利用其强大的常识知识和推理能力。所提出的方法采用LLM作为行为规划的智能决策者，并辅以安全验证器盾牌进行情境安全学习，以提高驾驶性能和安全性。我们在模拟环境中提出了两项关键研究：自适应LLM条件模型预测控制（MPC）和具有状态机的LLM交互式行为规划方案。与最先进的方法相比，我们的方法展示了卓越的性能和安全指标，显示了将LLM用于自动驾驶汽车的巨大潜力。

[18] ChatGPT as Your Vehicle Co-Pilot: An Initial Attempt（TIV 2023 ）

论文链接：https://ieeexplore.ieee.org/document/10286969

清华大学的工作：人机协同工作中最具挑战性的问题之一是人类意图与机器理解和执行之间的差距。大型语言模型（LLMs）在解决此类问题方面表现出了卓越的能力。在这篇文章中，我们设计了一个通用框架，将LLM嵌入作为驾驶的车辆“副驾驶”，可以根据提供的信息在满足人类意图的情况下完成特定的驾驶任务。同时，定义了一个利用工作流来处理人与车辆之间的交互，并引入了记忆机制来组织任务中涉及的信息。建议采用面向专家的黑盒调谐来提高副驾驶的性能，而无需对LLM进行微调或培训。在实验中，副驾驶被应用于两个不同的任务，即路径跟踪控制和轨迹规划。副驾驶通过选择合适的控制器或规划特定的轨迹来适应人类意图，从而调整车辆运行条件。通过仿真测试来评估所提出模块的性能和通用性。结果表明，尽管Co-Pilot并非完美无瑕，但它可以完成仅基于自然语言处理的大部分任务。最后，讨论了人机混合智能以及LLM在自动驾驶中的进一步应用。我们认为，这种框架在自动驾驶汽车领域的进一步应用中具有广阔的潜力。

[19] Receive, Reason, and React: Drive as You Say with Large Language Models in Autonomous Vehicles

论文链接：https://arxiv.org/abs/2310.08034

普渡大学的工作：以人为本的设计和人工智能（AI）能力的融合为超越交通的下一代自动驾驶汽车开辟了新的可能性。这些车辆可以动态地与乘客互动，并适应他们的喜好。本文提出了一种新的框架，该框架利用大型语言模型（LLM）来增强自动驾驶汽车的决策过程。通过利用LLM的语言和上下文理解能力以及专门的工具，我们的目标是将LLM的言语和推理能力整合到自动驾驶汽车中。我们的研究包括在HighwayEnv中的实验，这是一个用于自动驾驶和战术决策任务的环境集合，旨在探索LLM在各种场景中的解释、交互和推理。我们还研究了实时个性化，展示了LLM如何基于口头命令影响驾驶行为。我们的实证结果突出了利用思维链提示的实质性优势，从而改善了驾驶决策，并显示了LLM通过持续的口头反馈来增强个性化驾驶体验的潜力。拟议的框架旨在改变自动驾驶汽车的运营方式，提供个性化支持、透明决策和持续学习，以提高安全性和有效性。通过将LLM集成到自动驾驶汽车中，我们实现了以用户为中心、透明和自适应的自动驾驶生态系统。

[20] LanguageMPC: Large Language Models as Decision Makers for Autonomous Driving

论文链接：https://arxiv.org/pdf/2310.03026

清华&港大的工作：现有的基于学习的自动驾驶（AD）系统在理解高级信息、推广到罕见事件以及提供可解释性方面面临挑战。为了解决这些问题，这项工作采用大型语言模型（LLM）作为需要人类常识理解的复杂AD场景的决策组件。我们设计认知途径，使LLM能够进行全面推理，并开发算法，将LLM决策转化为可操作的驾驶命令。通过这种方法，LLM决策通过引导参数矩阵自适应与低级控制器无缝集成。大量实验表明，由于LLM的常识推理能力，我们提出的方法不仅在单车任务中始终优于基线方法，而且有助于处理复杂的驾驶行为，甚至多车协调。本文介绍了在安全性、效率、通用性和互操作性方面利用LLM作为复杂AD场景的有效决策者的第一步。我们希望它能为该领域的未来研究提供灵感。

[21] Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving

论文链接：https://browse.arxiv.org/abs/2310.01957

Wayve的工作：大型语言模型（LLM）在自动驾驶领域显示出了希望，特别是在泛化和可解释性方面。我们引入了一种独特的目标级多模态LLM架构，该架构将矢量化数值模式与预训练的LLM相结合，以提高驾驶情况下的上下文理解能力。我们还展示了一个新的数据集，其中包含来自10k个驾驶场景的160k个QA对，以及通过RL代理收集的高质量控制命令和教师LLM（GPT-3.5）生成的问答对。设计了一种独特的预训练策略，使用矢量字幕语言数据将数值矢量模态与静态LLM表示对齐。我们还为驾驶QA引入了一个评估指标，并展示了我们的LLM驾驶员在解释驾驶场景、回答问题和决策方面的熟练程度。我们的研究结果强调了与传统的行为克隆相比，基于LLM的驾驶行为生成的潜力。我们提供基准、数据集和模型以供进一步探索。

[22] GPT-DRIVER: LEARNING TO DRIVE WITH GPT

论文链接：https://browse.arxiv.org/abs/2310.01415v1

南加州大学&清华的工作：自动驾驶的核心挑战，旨在规划安全舒适的驾驶轨迹。现有的运动规划器主要利用启发式方法来预测驾驶轨迹，但这些方法在面对新颖和未知的驾驶场景时表现出不足的泛化能力。在这篇论文中，我们提出了一种新的运动规划方法，该方法利用了大型语言模型（LLMs）固有的强大推理能力和泛化潜力。我们方法的基本见解是将运动规划重新表述为语言建模问题，这是一个以前从未探索过的视角。具体来说，我们将规划者的输入和输出表示为语言标记，并利用LLM通过坐标位置的语言描述来生成驾驶轨迹。此外，我们提出了一种新的提示推理微调策略，以激发LLM的数值推理潜力。通过这种策略，LLM可以用自然语言描述高度精确的轨迹坐标及其内部决策过程。我们在大规模nuScenes数据集上评估了我们的方法，广泛的实验证实了我们基于GPT的运动规划器的有效性、泛化能力和可解释性。代码将在验收后发布。

[23] DiLu: A Knowledge-Driven Approach to Autonomous Driving with Large Language Models

论文链接：https://arxiv.org/abs/2309.16292

上海AI Lab&华师&港中文的工：自动驾驶的最新进展依赖于数据驱动的方法，这些方法被广泛采用，但面临着数据集偏差、过拟合和不可解释性等挑战。从人类驾驶的知识驱动性中汲取灵感，我们探索了如何将类似的能力灌输到自动驾驶系统中的问题，并总结了一个整合了交互式环境、驾驶员代理和记忆组件的范式来解决这个问题。利用具有涌现能力的大型语言模型（LLM），我们提出了DiLu框架，该框架结合了推理和反射模块，使系统能够基于常识知识进行决策并不断发展。大量的实验证明了DiLu积累经验的能力，并证明了其在泛化能力方面比基于强化学习的方法具有显著优势。此外，DiLu能够直接从真实世界的数据集中获取经验，这突显了其在实际自动驾驶系统上部署的潜力。据我们所知，我们是第一个在自动驾驶汽车决策中利用知识驱动能力的公司。通过提出的DiLu框架，LLM在自动驾驶领域的应用知识和推理能力得到了加强。

[24] Drive as You Speak: Enabling Human-Like Interaction with Large Language Models in Autonomous Vehicles

论文链接：https://arxiv.org/abs/2309.10228

普渡大学的工作：自动驾驶汽车的未来在于以人为本的设计和先进的人工智能能力的融合。未来的自动驾驶汽车不仅将运送乘客，还将与乘客互动并适应他们的需求，使旅程舒适、高效、愉快。在这篇论文中，我们提出了一种利用大型语言模型（LLMs）来增强自动驾驶汽车决策过程的新框架。通过整合LLM的自然语言能力和上下文理解、专用工具的使用、协同推理以及与自动驾驶汽车上的各种模块的作用，该框架旨在将LLM的高级语言和推理能力无缝集成到自动驾驶汽车中。拟议的框架有可能彻底改变自动驾驶汽车的运行方式，提供个性化帮助、持续学习和透明决策，最终有助于实现更安全、更高效的自动驾驶技术。

[25] TrafficGPT: Viewing, Processing and Interacting with Traffic Foundation Models

论文链接：https://arxiv.org/abs/2309.06719

北航&上海AI lab的工作：随着chatgpt向公众的推广，大型语言模型确实展示了非凡的常识、推理和规划技能，经常提供有见地的指导。这些能力在城市交通管理和控制中的应用前景广阔。然而，LLM难以解决交通问题，特别是处理数值数据和与模拟交互，这限制了它们解决交通相关挑战的潜力。同时，存在专门的流量基础模型，但通常是为具有有限输入输出交互的特定任务而设计的。将这些模型与LLM相结合，可以提高其解决复杂交通相关问题的能力，并提供有见地的建议。为了弥合这一差距，我们提出了TrafficGPT，这是ChatGPT和流量基础模型的融合。这种集成带来了以下关键增强：1）赋予ChatGPT查看、分析、处理交通数据的能力，并为城市交通系统管理提供有见地的决策支持；2）促进对广泛而复杂的任务的智能解构，并顺序利用交通基础模型逐步完成；3）通过自然语言对话辅助人类在交通控制中的决策；以及4）实现交互式反馈和征求修订后的结果。通过无缝融合大型语言模型和流量专业知识，TrafficGPT不仅推进了流量管理，还提供了一种在该领域利用人工智能功能的新方法。

[26] Drive Like a Human: Rethinking Autonomous Driving with Large Language Models

论文链接：https://browse.arxiv.org/abs/2307.07162

上海AI Lab的工作：本文探讨了使用大型语言模型（LLM）以类似人类的方式理解驾驶环境的潜力，并分析了其在面对复杂场景时的推理、解释和记忆能力。我们认为，传统的基于优化和模块化的自动驾驶（AD）系统在处理长尾角情况时面临固有的性能限制。为了解决这个问题，我们建议理想的AD系统应该像人类一样驾驶，通过持续驾驶积累经验，并使用常识来解决问题。为了实现这一目标，我们确定了AD系统所需的三种关键能力：推理、解释和记忆。我们通过构建一个闭环系统来展示其理解和环境交互能力，从而证明了在驾驶场景中使用LLM的可行性。我们广泛的实验表明，LLM在推理和解决长尾案例方面表现出了令人印象深刻的能力，为类人自动驾驶的发展提供了宝贵的见解。

生成

[1] ChatScene: Knowledge-Enabled Safety-Critical Scenario Generation for Autonomous Vehicles（CVPR2024）

论文链接：https://arxiv.org/abs/2405.14062

伊利诺伊大学的工作：我们介绍了ChatScene，这是一种基于大型语言模型（LLM）的代理，它利用LLM的能力为自动驾驶汽车生成安全关键场景。给定非结构化语言指令，代理首先使用LLM生成文本描述的流量场景。这些场景描述随后被分解为几个子描述，用于指定细节，如车辆的行为和位置。然后代理将文本描述的子场景独特地转换为特定领域的语言，然后生成用于模拟器中预测和控制的实际代码，从而促进在CARLA模拟环境中创建多样化和复杂的场景。我们代理的一个关键部分是一个全面的知识检索组件，它通过训练一个包含场景描述和代码对的知识数据库，将特定的文本描述高效地转换为相应的领域特定代码片段。大量的实验结果强调了ChatScene在提高自动驾驶汽车安全性方面的有效性。例如，当针对不同的基于强化学习的自我车辆进行测试时，ChatScene生成的场景显示，与最先进的基线相比，碰撞率增加了15%。此外，我们还表明，通过使用我们生成的安全关键场景来微调不同的基于RL的自动驾驶模型，它们可以将碰撞率降低9%，超过目前的SOTA方法。ChatScene有效地弥合了交通场景的文本描述与实际CARLA模拟之间的差距，为自动驾驶汽车的安全测试和改进提供了一种统一的方法，可以方便地生成安全关键场景。

[2] REvolve: Reward Evolution with Large Language Models for Autonomous Driving

https://arxiv.org/abs/2406.01309

设计有效的奖励函数对于训练强化学习（RL）算法至关重要。然而，由于某些任务的主观性很难明确量化，即使对于领域专家来说，这种设计也不是微不足道的。在最近的研究中，大型语言模型（LLM）已被用于从自然语言任务描述中生成奖励，利用其广泛的指令调整和对人类行为的常识理解。在这项工作中，我们假设在人类反馈的指导下，LLM可用于制定与人类一致的奖励函数。具体来说，我们在具有挑战性的自动驾驶（AD）环境中研究了这一点，其中“良好”驾驶的概念是隐性的，难以量化。为此，我们引入了REvolve，这是一个在AD中使用LLM进行奖励设计的进化框架。REvolve通过利用人类反馈来指导进化过程，有效地将隐含的人类知识转化为显式的奖励函数，用于训练（深度）RL代理，从而创建和细化奖励函数。我们证明，接受过REvolve设计奖励训练的智能体与人类驾驶标准高度一致，从而超越了其他最先进的基准。

[3] Generalized Predictive Model for Autonomous Driving（ECCV2024）

论文链接：https://arxiv.org/abs/2403.09630

上海AI Lab & 港科技 & 港大等团队的工作：本文介绍了自动驾驶中第一个大规模视频预测模型。为了消除高成本数据收集的限制，并增强我们模型的泛化能力，我们从网络上获取大量数据，并将其与多样化和高质量的文本描述配对。由此产生的数据集积累了2000多个小时的驾驶视频，涵盖了世界各地不同天气条件和交通场景的地区。继承了最近潜在扩散模型的优点，我们的模型被称为GenAD，它使用新颖的时间推理块来处理驾驶场景中的挑战性动态。我们展示了它可以以零样本的方式推广到各种看不见的驾驶数据集，超过了一般或特定驾驶的视频预测同行。此外，GenAD可以适应动作条件预测模型或运动规划器，在现实世界的驾驶应用中具有巨大的潜力。

[4] DriveDreamer v2 & DriveDreamer v1（ECCV2024）

论文链接：https://arxiv.org/abs/2403.06845
论文链接：https://arxiv.org/abs/2309.09777

中科院 & 极佳在生成方向的系列工作：

[5] Editable Scene Simulation for Autonomous Driving via Collaborative LLM-Agents（CVPR 2024）

论文链接：https://arxiv.org/abs/2402.05746

上交 & 上海AI Lab & 卡内基梅隆 & 清华团队的工作：自动驾驶中的场景模拟因其生成定制数据的巨大潜力而受到广泛关注。然而，现有的可编辑场景模拟方法在用户交互效率、多相机照片真实感渲染和外部数字资产集成方面存在局限性。为了应对这些挑战，本文介绍了ChatSim，这是第一个通过自然语言命令和外部数字资产实现可编辑的照片级逼真3D驾驶场景模拟的系统。为了实现具有高度命令灵活性的编辑，~ChatSim利用了大型语言模型（LLM）代理协作框架。为了生成逼真的结果，ChatSim采用了一种新颖的多相机神经辐射场方法。此外，为了释放大量高质量数字资产的潜力，ChatSim采用了一种新颖的多相机光照估计方法来实现场景一致性资产的渲染。我们在Waymo Open Dataset上的实验表明，ChatSim可以处理复杂的语言命令并生成相应的照片级逼真场景视频。

[6] GenAD: Generative End-to-End Autonomous Driving（ECCV2024）

论文链接：https://arxiv.org/abs/2402.11502

加州大学伯克利分校 & Waytous & 中科院团队的工作：从原始传感器直接生成规划结果一直是自动驾驶长期以来的理想解决方案，最近引起了越来越多的关注。大多数现有的端到端自动驾驶方法将这个问题分解为感知、运动预测和规划。然而，我们认为，传统的渐进式管道仍然无法全面模拟整个交通演变过程，例如，自我汽车和其他交通参与者之间的未来互动以及先验的结构轨迹。在这篇论文中，我们探索了一种端到端自动驾驶的新范式，其中的关键是预测自我汽车和周围环境在给定过去场景的情况下是如何演变的。我们提出了GenAD，这是一个将自动驾驶转化为生成建模问题的生成框架。我们提出了一种以实例为中心的场景标记器，它首先将周围的场景转换为地图感知的实例标记。然后，我们使用变分自动编码器来学习结构潜在空间中的未来轨迹分布，以便进行轨迹先验建模。我们进一步采用时间模型来捕捉潜在空间中的主体和自我运动，以生成更有效的未来轨迹。GenAD最终通过在基于实例标记的学习结构潜在空间中采样分布，并使用学习到的时间模型生成未来，同时执行运动预测和规划。在广泛使用的nuScenes基准上进行的广泛实验表明，所提出的GenAD在以视觉为中心的端到端高效自动驾驶方面实现了最先进的性能。

[7] Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous Driving

论文链接：https://arxiv.org/abs/2311.17918

中科院自动化所的工作：在自动驾驶中，提前预测未来事件并评估可预见的风险，使自动驾驶汽车能够更好地规划其行动，提高道路上的安全性和效率。为此，我们提出了Drive WM，这是第一个与现有端到端规划模型兼容的驾驶世界模型。通过视图分解促进的联合时空建模，我们的模型在驾驶场景中生成了高保真多视图视频。基于其强大的生成能力，我们首次展示了应用世界模式进行安全驾驶规划的潜力。特别是，我们的Drive WM能够根据不同的驾驶操作驾驶进入多个未来，并根据基于图像的奖励确定最佳轨迹。对真实世界驾驶数据集的评估验证了我们的方法可以生成高质量、一致和可控的多视图视频，为真实世界的模拟和安全规划开辟了可能性。

[8] ADriver-I: A General World Model for Autonomous Driving

论文链接：https://arxiv.org/abs/2311.13549

旷视团队的工作：通常自动驾驶采用模块化设计，将整个堆栈分为感知、预测、规划和控制部分。虽然可以解释，但这种模块化设计往往会引入大量的冗余。最近，多模态大语言模型（MLLM）和扩散技术在理解和生成能力方面表现出了优越的性能。本文首先介绍了交错视觉动作对的概念，它统一了视觉特征和控制信号的格式。基于视觉动作对，我们构建了一个基于MLLM和自动驾驶扩散模型的通用世界模型，称为ADriver-I。它以视觉动作对为输入，自回归预测当前帧的控制信号。所生成的控制信号与历史视觉动作对一起被进一步调节以预测未来的帧。利用预测的下一帧，ADriver-I执行进一步的控制信号预测。这样的过程可以重复无数次，ADriver-I在自己创造的世界中实现了自动驾驶。在nuScenes和我们的大规模私有数据集上进行了广泛的实验。与几个构建的基线相比，ADriver-I显示出令人印象深刻的性能。我们希望我们的ADriver-I能够为未来的自动驾驶和嵌入式智能提供一些新的见解。

[9] A Language Agent for Autonomous Driving

论文链接：https://arxiv.org/abs/2311.10813

南加州大学 & 斯坦福 & 英伟达团队的工作：人类水平的驾驶是自动驾驶的最终目标。传统方法将自动驾驶视为一种感知预测规划框架，但它们的系统并没有利用人类固有的推理能力和经验知识。在这篇论文中，我们提出了一种从当前管道的根本范式转变，利用大型语言模型（LLM）作为认知代理，将类人智能整合到自动驾驶系统中。我们的方法称为Agent Driver，通过引入可通过函数调用访问的多功能工具库、用于决策的常识和经验知识的认知记忆以及能够进行思维链推理、任务规划、运动规划和自我反思的推理引擎，改变了传统的自动驾驶管道。在LLM的支持下，我们的Agent Driver具有直观的常识和强大的推理能力，从而能够实现更细致、更人性化的自动驾驶方法。我们在大规模nuScenes基准上评估了我们的方法，广泛的实验证实，我们的代理驱动程序在很大程度上优于最先进的驱动方法。我们的方法还显示出优于这些方法的可解释性和few-shot学习能力。

[10] On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving

论文链接：https://arxiv.org/abs/2311.05332

上海 AI Lab等团队的工作：对自动驾驶技术的追求取决于感知、决策和控制系统的复杂集成。传统的方法，无论是数据驱动的还是基于规则的，都因无法掌握复杂驾驶环境的细微差别和其他道路使用者的意图而受到阻碍。这一直是一个重大的瓶颈，特别是在开发安全可靠的自动驾驶所需的常识推理和细致的场景理解方面。视觉语言模型（VLM）的出现代表了实现全自动驾驶汽车的新前沿。本报告对最新最先进的VLM GPT-4V（ision）及其在自动驾驶场景中的应用进行了详尽的评估。我们探索了模型理解和推理驾驶场景、做出决策并最终以驾驶员的身份行事的能力。我们的综合测试涵盖了从基本场景识别到复杂因果推理和在不同条件下的实时决策。我们的研究结果表明，与现有的自主系统相比，GPT-4V在场景理解和因果推理方面表现出色。它展示了在真实驾驶环境中处理配送外场景、识别意图和做出明智决策的潜力。然而，挑战仍然存在，特别是在方向识别、交通灯识别、视觉基础和空间推理任务方面。这些局限性凸显了进一步研究和开发的必要性。

[11] MagicDrive: Street View Generation with Diverse 3D Geometry Control（ICLR 2024）

论文链接：https://arxiv.org/abs/2310.02601

港中文 & 港科技 & 华为诺亚团队的工作：扩散模型的最新进展显著增强了2D控制的数据合成。然而，对于3D感知任务至关重要的街景生成中的精确3D控制仍然难以捉摸。具体来说，将鸟瞰图（BEV）作为主要条件通常会导致几何控制（如高度）方面的挑战，影响目标形状、遮挡模式和路面高度的表示，所有这些对于感知数据合成至关重要，特别是对于3D目标检测任务。在本文中，我们介绍了MagicDrive，这是一种新颖的街景生成框架，它提供了多种3D几何控件，包括相机姿态、道路地图和3D边界框，以及通过定制编码策略实现的文本描述。此外，我们的设计还包含了一个交叉视图注意力模块，确保了多个摄像头视图的一致性。通过MagicDrive，我们实现了高保真的街景图像和视频合成，捕捉到细微的3D几何和各种场景描述，增强了BEV分割和3D目标检测等任务。

[12] DrivingDiffusion: Layout-Guided multi-view driving scene video generation with latent diffusion model

论文链接：https://arxiv.org/abs/2310.07771

百度的工作：随着基于强大和统一的鸟瞰图（BEV）表示的自动驾驶的日益普及，迫切需要具有精确注释的高质量和大规模多视图视频数据。然而，由于昂贵的收集和注释成本，很难获得如此大规模的多视图数据。为了缓解这个问题，我们提出了一种时空一致的扩散框架DrivingDiffusion，以生成由3D布局控制的逼真多视图视频。在给定3D布局的情况下合成多视图视频时有三个挑战：如何保持1）跨视图一致性和2）跨帧一致性？3）如何保证生成实例的质量？我们的DrivingDiffusion通过级联多视图单帧图像生成步骤、多个相机共享的单视图视频生成步骤以及可以处理长视频生成的后处理来解决这个问题。在多视图模型中，通过相邻摄像机之间的信息交换来确保多视图图像的一致性。在时间模型中，我们主要从第一帧的多视图图像中查询后续帧生成中需要注意的信息。我们还引入了本地提示，以有效提高生成实例的质量。在后处理中，我们进一步增强了后续帧的交叉视图一致性，并通过采用时间滑动窗口算法扩展了视频长度。在没有任何额外成本的情况下，我们的模型可以在复杂的城市场景中生成大规模逼真的多摄像头驾驶视频，为下游的驾驶任务提供动力。

[13] GAIA-1: A Generative World Model for Autonomous Driving

论文链接：https://arxiv.org/abs/2309.17080

Wayve的工作：自动驾驶有望为交通带来革命性的改善，但构建能够安全地应对现实世界场景的非结构化复杂性的系统仍然具有挑战性。一个关键问题在于有效地预测随着世界的发展，车辆行动可能会出现的各种潜在结果。为了应对这一挑战，我们引入了GAIA-1（“自主生成人工智能”），这是一种生成世界模型，利用视频、文本和动作输入生成逼真的驾驶场景，同时对自我车辆行为和场景特征提供精细控制。我们的方法通过将输入映射到离散令牌，并预测序列中的下一个令牌，将世界建模转化为无监督的序列建模问题。我们模型中的新兴属性包括学习高级结构和场景动力学、上下文感知、泛化和几何理解。GAIA-1的学习表征能够捕捉到对未来事件的预期，再加上其生成真实样本的能力，为自动驾驶领域的创新提供了新的可能性，从而增强和加速了自动驾驶技术的训练。

[14] Language-Guided Traffic Simulation via Scene-Level Diffusion

论文链接：https://arxiv.org/abs/2306.06344

哥伦比亚大学 & 英伟达等团队的工作：真实可控的交通仿真是加速自动驾驶汽车（AV）发展所必需的核心能力。然而，目前控制基于学习的流量模型的方法需要大量的领域专业知识，从业者很难使用。为了解决这个问题，我们提出了CTG++，这是一种可以由语言指令引导的场景级条件扩散模型。发展这一点需要应对两个挑战：需要一个现实可控的交通模型骨干网，以及一种使用语言与交通模型进行交互的有效方法。为了应对这些挑战，我们首先提出了一种配备时空变换器骨干的场景级扩散模型，该模型可以生成真实可控的流量。然后，我们利用大型语言模型（LLM）将用户的查询转换为损失函数，引导扩散模型生成符合查询的查询。通过综合评估，我们证明了我们提出的方法在生成逼真、符合查询的交通模拟方面的有效性。

QA

[1] A Superalignment Framework in Autonomous Driving with Large Language Models

论文链接：https://arxiv.org/abs/2406.05651

在过去的一年里，大型语言模型（LLM）和多模态大型语言模型的领域取得了重大进展，特别是在它们在自动驾驶中的应用方面。这些模型在处理和交互复杂信息方面表现出了非凡的能力。在自动驾驶中，LLM和MLLM被广泛使用，需要访问敏感的车辆数据，如精确的位置、图像和路况。这些数据被传输到基于LLM的推理云进行高级分析。然而，人们对数据安全产生了担忧，因为防止数据和隐私泄露主要取决于LLM的固有安全措施，而没有对LLM的推理输出进行额外的审查或评估。尽管它很重要，但LLM在自动驾驶中的安全方面仍然没有得到充分的探索。为了弥补这一差距，我们的研究引入了一种新的自动驾驶汽车安全框架，利用多代理LLM方法。该框架旨在保护与自动驾驶汽车相关的敏感信息免受潜在泄露，同时确保LLM输出符合驾驶法规并符合人类价值观。它包括过滤掉不相关查询并验证LLM输出的安全性和可靠性的机制。利用这个框架，我们评估了11个大型语言模型驱动的自动驾驶线索的安全性、隐私性和成本方面。此外，我们对这些驾驶提示进行了QA测试，成功证明了该框架的有效性。

[2] Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving

论文链接：https://arxiv.org/abs/2403.19838

视觉语言模型（VLM）和多模态语言模型（MMLM）在自动驾驶研究中已经变得突出，因为这些模型可以使用交通场景图像和其他数据模式为端到端的自动驾驶安全任务提供可解释的文本推理和响应。然而，目前这些系统的方法使用昂贵的大型语言模型（LLM）骨干和图像编码器，这使得这些系统不适合实时自动驾驶系统，因为存在严格的内存限制，需要快速的推理时间。为了解决这些先前的问题，我们开发了EM-VLM4AD，这是一种高效、轻量级的多帧视觉语言模型，可以为自动驾驶执行视觉问答。与以前的方法相比，EM-VLM4AD所需的内存和浮点运算至少减少了10倍，同时还实现了比DriveLM数据集上的现有基线更高的CIDEr和ROUGE-L分数。EM-VLM4AD还具有从与提示相关的交通视图中提取相关信息的能力，并可以回答各种自动驾驶子任务的问题。

[3] Holistic Autonomous Driving Understanding by Bird’s-Eye-View Injected Multi-Modal Large Models

论文链接：https://arxiv.org/abs/2401.00988

港大&华为诺亚的工作：多模态大型语言模型（MLLM）的兴起激发了人们对基于语言的驾驶任务的兴趣。然而，现有的研究通常只关注有限的任务，往往忽略了对鲁棒自动驾驶至关重要的关键多视图和时间信息。为了弥合这些差距，我们引入了NuInstruct，这是一个新的数据集，在17个子任务中有91K个多视图视频QA对，其中每个任务都需要整体信息（例如时间、多视图和空间），大大提高了挑战水平。为了获得NuInstruct，我们提出了一种基于SQL的自动生成指令-响应对的新方法，其灵感来自人类驱动的逻辑进程。我们进一步介绍了BEV-InMLLM，这是一种端到端的方法，用于有效地导出指令感知的鸟瞰图（BEV）特征，为大型语言模型进行语言对齐。BEV-InMLLM集成了多视图、空间感知和时间语义，以增强MLLM在NuInstruct任务上的能力。此外，我们提出的BEV注入模块是现有MLLM的即插即用方法。我们在NuInstruct上的实验表明，BEV-InMLLM明显优于现有的MLLM，例如在各种任务上提高了约9%。我们计划发布NuInstruct以供未来的研究开发。

[4] DriveLM: Driving with Graph Visual Question Answering（ECCV2024）

论文链接：https://arxiv.org/abs/2312.14150v2

上海AI Lab&图宾根大学的工作：我们研究了如何将基于网络规模数据训练的视觉语言模型（VLM）集成到端到端的驱动系统中，以提高泛化能力并实现与人类用户的交互。虽然最近的方法使VLM适应通过单轮视觉问答（VQA）进行驾驶，但人类驾驶员会通过多个步骤对决策进行推理。从关键目标的定位开始，人类在采取行动之前估计目标的相互作用。关键的见解是，通过我们提出的任务Graph VQA，我们通过感知、预测和规划问答对对对图结构推理进行建模，我们获得了一个合适的代理任务来模仿人类的推理过程。我们实例化了基于nuScenes和CARLA构建的数据集（DriveLM Data），并提出了一种基于VLM的基线方法（DriveLM Agent），用于联合执行Graph VQA和端到端驱动。实验表明，Graph VQA为驾驶场景的推理提供了一个简单、有原则的框架，而DriveLM Data为这项任务提供了具有挑战性的基准。与最先进的驾驶专用架构相比，我们的DriveLM Agent基线在端到端自动驾驶方面具有竞争力。值得注意的是，当它在看不见的物体或传感器配置上进行零样本评估时，它的优势是显著的。我们希望这项工作能够成为如何将VLM应用于自动驾驶的新思路的起点。为了便于未来的研究，所有代码、数据和模型都向公众开放。

[5] LingoQA: Video Question Answering for Autonomous Driving

论文链接：https://arxiv.org/abs/2312.14115

Wayve的工作：由于决策过程中缺乏可解释性，自动驾驶长期以来一直面临着公众接受度的挑战。自然语言视频问答（QA）为弥合这一差距提供了机会。尽管如此，由于缺乏全面的基准，评估视频质量保证模型的性能被证明特别困难。为了填补这一空白，我们引入了LingoQA，这是一个专门用于自动驾驶视频QA的基准。LingoQA可训练指标与人类评估的Spearman相关系数为0.95。我们介绍了一个伦敦市中心的视频质量保证数据集，由我们随论文发布的419k个样本组成。我们建立了一个基线视觉语言模型，并进行了广泛的消融研究，以了解其性能。

[6] Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving

论文链接：https://arxiv.org/abs/2312.03661

复旦&华为诺亚的工作：大型视觉语言模型（VLM）在自动驾驶领域引起了越来越多的兴趣，因为它们在高度自动驾驶车辆行为所必需的复杂推理任务中具有先进的能力。尽管有潜力，但由于缺乏带有注释推理链的数据集来解释驾驶中的决策过程，自主系统的研究受到了阻碍。为了弥合这一差距，我们提出了Reason2Drive，这是一个拥有超过60万个视频文本对的基准数据集，旨在促进复杂驾驶环境中可解释推理的研究。我们明确地将自动驾驶过程描述为感知、预测和推理步骤的顺序组合，问答对是从各种开源户外驾驶数据集中自动收集的，包括nuScenes、Waymo和ONCE。此外，我们引入了一种新的聚合评估度量来评估自治系统中基于链的推理性能，解决了BLEU和CIDEr等现有度量的语义歧义问题。基于所提出的基准，我们进行了实验来评估各种现有的VLM，揭示了它们的推理能力。此外，我们开发了一种有效的方法，使VLM能够在特征提取和预测中利用目标级感知元素，进一步提高其推理准确性。代码和数据集将被发布。

[7] Dolphins: Multimodal Language Model for Driving

论文链接：https://arxiv.org/abs/2312.00438

英伟达&斯坦福的工作：寻求能够以人类般的理解和响应能力在复杂的现实世界场景中导航的全自动驾驶汽车（AV）。在这篇论文中，我们介绍了海豚，这是一种新颖的视觉语言模型，旨在吸收类人能力作为对话式驾驶助手。海豚擅长处理包括视频（或图像）数据、文本指令和历史控制信号的多模式输入，以生成与所提供指令相对应的知情输出。基于开源的预训练视觉语言模型OpenFlamingo，我们首先通过创新的扎根思维链（GCoT）过程增强海豚的推理能力。然后，我们通过构建特定于驾驶的指令数据和进行指令调优，将海豚定制到驾驶领域。通过使用BDD-X数据集，我们将四个不同的AV任务设计并整合到海豚中，以促进对复杂驾驶场景的全面理解。因此，海豚的独特特征可以分为两个方面：（1）能够全面理解复杂和长尾的开放世界驾驶场景，并解决一系列AV任务，以及（2）出现类似人类的能力，包括通过上下文学习实现无梯度即时适应和通过反射实现错误恢复。

[8] Human-Centric Autonomous Systems With LLMs for User Command Reasoning

论文链接：https://arxiv.org/abs/2311.08206

瑞典皇家理工学院的工作：近年来，自动驾驶技术的发展取得了显著进步，逐渐成为现实。然而，以人为中心的大规模采用取决于满足各种多方面的要求。为了确保自主系统满足用户的意图，准确识别和解释用户命令至关重要，特别是在复杂或紧急情况下。为此，我们建议利用大型语言模型（LLM）的推理能力，从舱内用户的命令中推断系统需求。通过一系列包括不同LLM模型和提示设计的实验，我们探索了自然语言文本命令对系统需求的少镜头多元二元分类准确性。我们确认了LLM理解和推理提示的一般能力，但强调其有效性取决于LLM模型的质量和适当顺序提示的设计。

[9] Talk2BEV: Language-enhanced Bird’s-eye View Maps for Autonomous Driving

论文链接：https://arxiv.org/abs/2310.02251

Talk2BEV是一个用于自动驾驶环境中鸟瞰图（BEV）的大型视觉语言模型（LVLM）接口。虽然现有的自动驾驶场景感知系统主要关注一组预定义的（封闭的）目标类别和驾驶场景，但Talk2BEV将通用语言和视觉模型的最新进展与BEV结构化地图表示相结合，消除了对特定任务模型的需求。这使得单个系统能够满足各种自动驾驶任务，包括视觉和空间推理、预测交通参与者的意图以及基于视觉线索的决策。我们广泛评估了Talk2BEV在大量场景理解任务上的表现，这些任务既依赖于解释自由形式的自然语言查询的能力，也依赖于将这些查询与嵌入语言增强BEV图中的视觉上下文相结合。为了能够进一步研究用于自动驾驶场景的LVLM，我们开发并发布了Talk2BEV Bench，这是一个包含1000个人类注释的BEV场景的基准，其中包含来自NuScenes数据集的20000多个问题和地面真实答案。

[10] Domain Knowledge Distillation from Large Language Model: An Empirical Study in the Autonomous Driving Domain

论文链接：https://arxiv.org/abs/2307.11769

基于工程知识（或专家）的系统需要大量的人工劳动和领域知识。由于大型语言模型（LLM）是使用大量跨领域知识进行训练的，因此可以自动化这些工程过程。本文提出了一种使用提示工程和LLM ChatGPT进行领域知识提取的经验自动化和半自动化框架。我们在自动驾驶领域实证评估了该框架，并提出了我们的主要观察结果。在我们的实现中，我们通过与ChatGPT“聊天”来构建领域知识本体。关键发现是，虽然完全自动化的领域本体构建是可能的，但人工监督和早期干预通常会提高效率和输出质量，因为它们可以减少响应随机性和蝴蝶效应的影响。因此，我们还开发了一种基于网络的蒸馏助手，可以在运行时进行监督和灵活干预。我们希望我们的发现和工具能够激励未来的研究，使基于知识的系统工程在应用领域发生革命性的变化。

预测

[1] LC-LLM: Explainable Lane-Change Intention and Trajectory Predictions with Large Language Models

论文链接：https://arxiv.org/abs/2403.18344

港科技等团队的工作：为确保在动态环境中安全驾驶，自动驾驶汽车应具备提前准确预测周围车辆变道意图并预测其未来轨迹的能力。现有的运动预测方法有足够的改进空间，特别是在长期预测精度和可解释性方面。在本文中，我们通过提出LC-LLM来应对这些挑战，LC-LLM是一种可解释的车道变更预测模型，它利用了大型语言模型（LLM）的强大推理能力和自我解释能力。本质上，我们将变道预测任务重新表述为语言建模问题，以自然语言处理异构驾驶场景信息作为输入LLM的提示，并采用监督微调技术专门为我们的变道预测工作定制LLM。这使我们能够利用LLM强大的常识推理能力来理解复杂的交互信息，从而提高长期预测的准确性。此外，我们在推理阶段将解释性要求纳入提示中。因此，我们的LC-LLM模型不仅可以预测变道意图和轨迹，还可以为其预测提供解释，从而提高了可解释性。在大规模高D数据集上的广泛实验证明了我们的LC-LLM在车道变换预测任务中的卓越性能和可解释性。据我们所知，这是首次尝试利用LLM预测变道行为。我们的研究表明，LLM可以为驾驶行为理解编码全面的交互信息。

[2] GPT-4 Enhanced Multimodal Grounding for Autonomous Driving: Leveraging Cross-Modal Attention with Large Language Models

论文链接：https://arxiv.org/abs/2312.03543

在自动驾驶汽车（AV）领域，准确识别指挥官意图并在视觉环境中执行语言命令是一项重大挑战。本文介绍了一种复杂的编解码器框架，旨在解决自动驾驶汽车中的视觉Grounding问题。我们的上下文感知视觉Grounding（CAVG）模型是一个先进的系统，它将五个核心编码器文本、图像、上下文和交叉模态与多模态解码器集成在一起。这种集成使CAVG模型能够熟练地捕捉上下文语义并学习人类情感特征，并通过包括GPT-4在内的最先进的大型语言模型（LLM）进行增强。CAVG的架构通过实现多头交叉模式注意力机制和用于注意力调制的区域特定动态（RSD）层得到了加强。这种架构设计使模型能够有效地处理和解释一系列跨模态输入，从而全面了解口头命令和相应视觉场景之间的相关性。对真实世界基准Talk2Car数据集的实证评估表明，CAVG在预测准确性和操作效率方面建立了新的标准。值得注意的是，即使在训练数据有限的情况下，该模型也表现出了卓越的性能，从整个数据集的50%到75%不等。此功能突出了其在实际AV应用中的有效性和部署潜力。此外，CAVG在具有挑战性的场景中表现出了显著的鲁棒性和适应性，包括长文本命令解释、低光照条件、模糊的命令上下文、恶劣的天气条件和人口稠密的城市环境。

[3] Can you text what is happening? Integrating pre-trained language encoders into trajectory prediction models for autonomous driving

论文链接：https://arxiv.org/abs/2309.05282

博世的工作：在自动驾驶任务中，场景理解是预测周围交通参与者未来行为的第一步。然而，如何表示给定的场景并提取其特征仍然是悬而未决的研究问题。在这项研究中，我们提出了一种新的基于文本的交通场景表示方法，并使用预训练的语言编码器对其进行处理。首先，我们证明了基于文本的表示与经典的光栅化图像表示相结合，可以实现描述性的场景嵌入。其次，我们在nuScenes数据集上对我们的预测进行基准测试，并显示出与基线相比的显著改进。第三，我们在一项消融研究中表明，文本和光栅化图像的联合编码器优于单个编码器，这证实了这两种表示都有互补的优势。

[4] MTD-GPT: A Multi-Task Decision-Making GPT Model for Autonomous Driving at Unsignalized Intersections

论文链接：https://arxiv.org/abs/2307.16118

同济 & 清华的工作：自动驾驶技术有望改变交通系统。然而，在无信号交叉口等复杂场景中实现安全准确的多任务决策仍然是自动驾驶汽车面临的挑战。本文提出了一种新的方法来解决这个问题，即开发一个多任务决策生成预训练变换器（MTD-GPT）模型。MTD-GPT模型利用强化学习（RL）的固有优势和生成预训练变换器（GPT）的复杂序列建模能力，旨在同时管理多个驾驶任务，如左转、直行和无信号交叉口的右转。我们最初训练一个单任务RL专家模型，在环境中采样专家数据，随后利用混合多任务数据集进行离线GPT训练。该方法将自动驾驶中的多任务决策问题抽象为序列建模任务。MTD-GPT模型在多个决策任务中进行了训练和评估，其性能优于或可与最先进的单任务决策模型相媲美。

检测

[1] AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving（CVPR 2024）

论文链接：https://arxiv.org/abs/2403.17373

西北大学等团队的工作：自动驾驶汽车（AV）系统依赖于稳健的感知模型作为安全保证的基石。然而，在路上遇到的物体呈现出长尾分布，罕见或看不见的类别对部署的感知模型构成了挑战。这需要一个昂贵的过程，即用大量的人力持续整理和注释数据。我们建议利用视觉语言和大型语言模型的最新进展来设计一个自动数据引擎（AIDE），该引擎可以自动识别问题，有效地管理数据，通过自动标签改进模型，并通过生成不同的场景来验证模型。这个过程迭代运行，允许模型的持续自我改进。我们还为AV数据集上的开放世界检测建立了一个基准，以全面评估各种学习范式，以降低成本展示了我们的方法的卓越性能。

[2] HiLM-D: Towards High-Resolution Understanding in Multimodal Large Language Models for Autonomous Driving

论文链接：https://arxiv.org/abs/2309.05186

港科技 & 华为诺亚的工作：自动驾驶系统通常为不同的任务采用单独的模型，从而产生复杂的设计。我们首次利用单一多模态大型语言模型（MLLM）整合视频中的多个自动驾驶任务，即风险目标定位和意图与建议预测（ROLISP）任务。ROLISP使用自然语言同时识别和解释风险目标，理解自我车辆意图，并提供运动建议，从而消除了特定任务架构的必要性。然而，由于缺乏高分辨率（HR）信息，现有的MLLM在应用于ROLISP时往往会错过小物体（如交通锥），并过度关注突出物体（如大型卡车）。我们提出了HiLM-D（迈向自动驾驶MLLM的高分辨率理解），这是一种将HR信息整合到MLLM中以完成ROLISP任务的有效方法。特别是，HiLM-D集成了两个分支：（i）低分辨率推理分支，可以是任何MLLM，处理低分辨率视频以说明风险目标并辨别自我车辆意图/建议；（ii）HiLM-D中突出的高分辨率感知分支（HR-PB）通过捕获视觉特定的HR特征图并将所有潜在风险优先于仅突出的目标来摄取HR图像以增强检测。我们的HR-PB是一个即插即用模块，可无缝安装到当前的MLLM中。在ROLISP基准上的实验表明，HiLM-D比领先的MLLM具有显著的优势，在BLEU-4中用于字幕的改进率为4.8%，在mIoU中用于检测的改进率达到17.2%。

跟踪

[1] Language Prompt for Autonomous Driving

论文链接：https://arxiv.org/abs/2309.04379

北理工 & 旷视等团队的工作：计算机视觉领域的一个新趋势是根据自然语言提示所表示的灵活的人类命令来捕捉感兴趣的目标。然而，由于成对提示实例数据的稀缺，在驾驶场景中使用语言提示的进展陷入了瓶颈。为了应对这一挑战，我们提出了第一个以目标为中心的语言提示集，用于在3D、多视图和多帧空间中驱动场景，名为NuPrompt。它通过构建总共35367种语言描述来扩展Nussenes数据集，每种语言描述平均涉及5.3个目标轨迹。基于新基准测试中的目标-文本对，我们制定了一个新的基于提示的驾驶任务，即使用语言提示来预测所描述的目标在视图和帧之间的轨迹。此外，我们提供了一个基于Transformer的简单端到端基线模型，名为PromptTrack。实验表明，我们的PromptTrack在NuPrompt上取得了令人印象深刻的性能。我们希望这项工作能为自动驾驶社区提供更多新的见解。

评测

[1] KoMA: Knowledge-driven Multi-agent Framework for Autonomous Driving with Large Language Models

论文链接：https://arxiv.org/abs/2407.14239

[2] Evaluation of Large Language Models for Decision Making in Autonomous Driving

论文链接：https://arxiv.org/pdf/2312.06351.pdf

[3] GPT-4V Takes the Wheel: Evaluating Promise and Challenges for Pedestrian Behavior Prediction

论文链接：https://arxiv.org/abs/2311.14786

其他

[1] Embodied Understanding of Driving Scenarios

论文链接：https://arxiv.org/abs/2403.04593

[2] AccidentGPT: Accident Analysis and Prevention from V2X Environmental Perception with Multi-modal Large Model

论文链接：https://arxiv.org/abs/2312.13156

[3] Large Language Models for Autonomous Driving: Real-World Experiments

论文链接：https://arxiv.org/abs/2312.09397

[4] DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model

论文链接：https://arxiv.org/abs/2310.01412

[5] ADAPT: Action-aware Driving Caption Transformer

论文链接：https://arxiv.org/abs/2302.00673

[6] Probing Multimodal LLMs as World Models for Driving

论文链接：https://arxiv.org/abs/2405.05956

数据集汇总

[1] Rank2Tell: A Multimodal Driving Dataset for Joint Importance Ranking and Reasoning

论文链接：https://arxiv.org/abs/2309.06597

[2] DriveLM: Drive on Language（ECCV 2024）

项目主页：https://github.com/OpenDriveLab/DriveLM

[3] NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for Autonomous Driving Scenario

论文链接：https://arxiv.org/abs/2305.14836

[4] DRAMA: Joint Risk Localization and Captioning in Driving

论文链接：https://arxiv.org/abs/2209.10767

[5] Language Prompt for Autonomous Driving

论文链接：https://arxiv.org/abs/2309.04379

[6] Driving with LLMs: Fusing Object-Level Vector Modality for Explainable Autonomous Driving

论文链接：https://browse.arxiv.org/abs/2310.01957

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频