上海交大发布CoLMDriver：首个基于LLM的全流程协作驾驶系统，成功率提升11%！-CSDN博客

本文链接：https://blog.csdn.net/soaring_casia/article/details/146397270

©️【深蓝AI】编译

论文题目：CoLMDriver: LLM-based Negotiation Benefits Cooperative Autonomous Driving

论文作者：Changxing Liu, Genjia Liu, Zijun Wang, Jinchang Yang, Siheng Chen

论文地址：https://arxiv.org/abs/2503.08683

01 研究背景

车辆间（Vehicle-to-vehicle， V2V）协作式自动驾驶旨在通过允许自动驾驶车辆与周围车辆进行通信来提高驾驶性能。与单车自动驾驶不同，单车自动驾驶中每个车辆仅基于自身传感器的观测结果做出驾驶决策，而协作式驾驶则使车辆能够交换驾驶相关数据。这种协作式信息共享机制帮助自动驾驶车辆克服单车驾驶中固有的局限性，如环境感知不完整和对周围交通参与者未来状态预测的不确定性。

传统的协作式驾驶方法大致可分为基于优化和基于学习的方法。基于优化的协作式驾驶方法将多车辆规划建模为约束优化问题以确定最优行动。然而，这些方法依赖于精确的环境建模，并需要特定任务的优化目标和约束，使它们在处理未知场景时存在内在限制。基于学习的方法采用强化学习和模仿学习来开发协作驾驶策略。虽然这些方法已应用于多个驾驶任务，但当遇到未见过的多车辆交互模式时，它们的性能往往会下降。这些局限性突显了探索更灵活和可泛化的协作驾驶框架的必要性。

近年来，大型语言模型（LLM）因其卓越的推理能力和广泛的知识而在协作系统中受到广泛关注。这一进展凸显了基于LLM的协作驾驶的潜力，即车辆可以通过自然语言进行协商。与基于优化和基于学习的方法相比，基于LLM的协作提供了两个关键优势。首先，基于语言的协作与固定协议通信相比提供了更大的灵活性，因为它可以同时包含局部运动细节和全局场景语义。其次，凭借广泛的预训练常识知识，LLM在理解交通场景和做出驾驶决策方面已经表现出强大的能力。这表明它们有潜力处理各种多车辆驾驶场景，包括复杂情况，如导航无交通灯的交叉路口。

然而，将LLM集成到协作驾驶中面临三个挑战。首先，LLM理解和规划连续道路空间的能力有限，使直接应用变得不可行，需要额外的空间信息来实现有效合作。其次，冗余的环境信息和无约束的协商降低了效率，需要与相关合作者进行选择性通信。第三，LLM较长且不稳定的推理延迟阻碍了高频规划，需要高效的协商和推理机制来适应实时控制。

为解决这些挑战，本文提出了CoLMDriver（Cooperative Language-Model-based Driver），这是第一个完整流程（从传感器数据到控制信号）的基于LLM的协作驾驶系统，它通过高效的规划协商来适应实时控制。CoLMDriver由两个并行规划流程组成：1）用于实时车辆控制的端到端驾驶流程，本质上具备完整的驾驶功能。为整合基于语言的协商，我们将其与一个意图引导的路点规划器结合，该规划器将高层次协商结果转换为可执行的路点。2）通过基于LLM的协商模块实现的协作规划流程。为提高协商的有效性和效率，我们提出了三个关键技术。

首先，我们引入了一个Actor-Critic反馈机制，评估协商结果并将结果反馈给基于LLM的协商者，实现持续的策略改进。这种评估同时考虑高层次意图和低层次路点，从安全性、效率性和多车辆共识角度提供反馈。其次，我们提出了一种动态分组机制，选择相关合作者进行协商，通过关注关键智能体来提高效率。第三，我们集成了一个辅助的基于VLM的意图规划器，处理非协作期间的情况。

该系统提供了两个关键优势。首先，它有效地将基于LLM的协作规划与精细的路点生成相结合。LLM衍生的驾驶意图指导路点生成，而路点提供反馈以改进协作策略，形成一个在线优化循环。其次，其并行框架适应异步规划，缓解了LLM和端到端流程之间固有的推理延迟差距。

为了评估V2V场景中的性能，我们引入了InterDrive（Interactive Driving）基准，在CARLA模拟器中构建了10个具有挑战性的交通场景。这些场景涉及多个具有严重冲突路线的自动驾驶车辆，测试自动驾驶系统处理高度交互式V2V情况的能力。我们在InterDrive基准和公开的Town05基准上评估了CoLMDriver。结果表明，CoLMDriver超越了现有的单车和协作驾驶方法，在各种场景中实现了11%更高的成功率。

▲图1｜ CoLMDriver 通过评估最新的协商结果来完善合作政策©️【深蓝AI】编译

02 相关工作

2.1. 端到端自动驾驶

端到端自动驾驶的一个关键研究方向是模仿学习，旨在通过拟合模型到记录的驾驶数据来复制专家驾驶行为。近期的进展集中在几个核心领域，以提高驾驶性能和鲁棒性。一些方法，如NEAT、TransFuser、UniAD、InterFuser和ReasonNet，利用Transformer架构捕获驾驶场景的更细微表示，增强模型处理复杂环境的能力。其他方法，如MP3、UniAD、LAV和TCP，整合辅助任务，为主要驾驶任务提供额外的学习信号，提高泛化能力。然而，模仿学习方法面临对未见场景泛化能力低和缺乏因果推理的问题。为克服这些问题，我们提出了一种基于LLM的方法，以在多样化交互场景中实现泛化推理能力。

2.2. 基于多模态大语言模型的驾驶

在自动驾驶领域，近期研究将LLM集成到自动驾驶系统中，以提高可解释性并促进类人交互。一些研究利用视觉-语言模型（VLM）处理多模态输入数据，提供适合驾驶场景的描述性文本和控制信号。LMDrive整合多模态传感器数据与文本指令，利用LLM进行闭环端到端自动驾驶。

大多数当前研究集中于使用LLM增强个体驾驶能力，而少数工作探索驾驶合作。AgentsCoDriver通过与环境交互促进终身学习，使智能体之间能进行简单协商。CoDrivingLLM围绕路边单元进行车对车协商以解决冲突。然而，这些方法仅限于离散决策，无法生成可执行的控制信号。它们还忽略了LLM的推理延迟，使实际部署具有挑战性。为弥合这些差距，我们提出了CoLMDriver，一个基于LLM的协作系统，通过并行框架生成实时驾驶信号。

03 问题的数学化表达

考虑 $N$ 个智能体参与合作。令 $X_i$ 和 $D_i$ 分别为第 $i$ 个智能体的观测和目标。协作驾驶的目标是实现所有智能体的最大驾驶性能；即：

$\mathop{\arg\max}\limits_{\theta, \mathcal{M}} \sum_{i=1}^N d(\Phi_\theta(X_i, D_i, \mathcal{M}_i^k))$

其中 $d(\cdot)$ 是驾驶性能度量， $Phi_\theta$ 是具有可训练参数 $\theta$ 的驾驶框架。 $mathcal{M}_i^k$ 是智能体 $i$ 与其他智能体之间的消息交换，可迭代 $k$ 轮。这里我们专注于利用语言的灵活性实现规划共识并提高整体性能，其中： $mathcal{M}_i^k = [\{\mathcal{M}_{i\leftrightarrow j}\}_{j=1}^N]^k$ 代表多轮基于语言的协商过程。

04 研究方法

本节介绍CoLMDriver，一个利用基于语言的协商和规划来增强多辆自动驾驶车辆集体驾驶能力的协作驾驶系统。作者首先在4.1节概述整体系统架构，然后在4.2和4.3节详细描述两个并行流水线的组成。

4.1. 整体架构

如图2所示，CoLMDriver通过并行驾驶流水线运行，旨在解决协商延迟挑战，同时不干扰下游规划器的正常执行。高层指导生成流水线以相对较低的频率进行深度推理，以制定全面且基于共识的驾驶意图，而低层感知-规划-控制流水线以高频率运行，确保实时车辆控制。

▲图2｜ CoLMDriver的整体框架©️【深蓝AI】编译

高层流水线通过两个核心组件协调协作决策：i）基于Actor-Critic范式的LLM协商模块，其中LLM实现车辆之间的多轮协商，在评估器的指导下达成驾驶策略共识；ii）基于VLM的意图规划器，通过合成多模态环境上下文生成高层驾驶意图。VLM意图规划器基于当前状态的文本描述、低层感知模块检测到的物体和前置摄像头输入，持续优化驾驶意图。如果预测到冲突，LLM协商模块首先与周围车辆进行动态图分组形成协商组，然后采用当前驾驶意图并在评估器指导下进行多轮协商过程。协商结果和意图指导随后反馈到低层路点规划器，指导精确规划。

低层流水线遵循感知-规划-控制结构。接收传感器数据时，感知模块生成物体级3D信息和BEV感知特征，进行空间理解作为规划任务的辅助输入。关键组件是意图引导的路点规划器，它利用感知特征和高层规划意图生成路点。这些路点由控制模块转换为控制信号，实现改进的协作驾驶结果。

4.2. 高层指导层

高层指导流水线负责战略决策和协作协商，通过语义推理和多智能体共识增强驾驶适应性。它由两个核心组件组成：基于VLM的意图规划器和基于LLM的协商模块。协商结果在协商过程中指导低层规划器，而当没有激活协商时，VLM输出优先考虑。

4.2.1. 基于LLM的协商模块

基于LLM的协商模块与周围智能车辆进行多轮对话，通过达成驾驶策略共识解决预测冲突。考虑到LLM推理的延迟可忽略不计，协商系统关注如何有效地达成优化驾驶策略的共识。为确保协商的泛化性，我们避免强制严格的输出格式或僵化的通信规则。然而，过于不受限制的协商可能难以达成共识。

创新之处在于将Actor-Critic范式纳入协商系统。Actor-Critic范式是一种强化学习方法，其中"actor"基于当前策略选择行动，而"critic"通过提供反馈评估所选行动的质量，使系统更快收敛到最优结果。在我们的方法中，基于LLM的协商者充当actor，评估者充当critic。通过提供基于对话质量、安全性和效率期望的反馈，我们利用LLM的上下文学习能力，促进协商过程中的快速收敛。

基于LLM的协商模块包括三个主要组件：i）动态图分组机制，识别需要协商的智能体并在动态交通场景中建立通信；ii）基于LLM的协商者，使用自然语言与分组智能体进行协商；iii）协商质量评估者，作为critic，向协商者提供反馈以加速达成共识。

整体流程：一旦协商过程开始，车辆首先使用动态图分组机制形成协商组。每轮中，车辆按指定顺序轮流"发言"。然后协商质量评估者评估情况，提供关于共识、安全性和效率的反馈。基于LLM的协商者将此反馈纳入输入，相应调整驾驶意图，再次调用评估者。经过几轮后，当评估者确定已达成共识，协商结束，最终驾驶意图传递给每个车辆的下游规划器。

动态图分组机制：确定与谁以及何时通信至关重要。为解决这一挑战，我们优先考虑最可能冲突的车辆组，并建立通信图促进有效协商。我们假设车辆能在硬件范围内自动建立通信，并能广播关键信息，如规划的未来路点。

为更好地阐明车辆之间的相互影响，我们通过构建时空车辆图进行动态分组。每辆车作为一个节点，未来可能冲突的车辆通过边连接，边基于路点派生的安全评分计算。在任何给定时刻，我们构建空间车辆图并应用深度优先搜索（DFS）将所有连接的车辆聚集到组中。为避免由于动态组的不断变化性质导致驾驶策略不一致，我们保留历史组并跨时间维度合并相交组，获得全面的分组结果。

基于LLM的协商者：基于LLM的协商者与组内其他车辆进行类人语言协商。输入包括自我车辆的当前速度、意图、其他车辆的广播信息、历史对话以及评估者的建议（如果存在）。由于LLM的推理时间与输出长度成正比，我们精心设计了提示词以确保简洁的信息传输，并采用提示词缓存技术以保持及时性。基于LLM的协商者整合组成员共享的信息，考虑过去的对话，并结合评估者的反馈输出信息，可能包括自身行动、请求或对他人的回应。

协商质量评估者：协商质量评估者作为评论者，基于未来规划评估协商性能，并生成与共识、安全性和效率相关的反馈。评估过程包括总结、评分和批评三个关键步骤。评估者可在组内随机车辆上激活。基于当前轮次对话，评估者首先使用LLM总结每辆车的行动，将其转化为驾驶意图格式，然后分发结果给所有车辆。每辆车的路点规划器使用总结的意图作为输入，生成规划路点，并广播这些计划以协助评估。评估者通过评估三个关键方面进行评分过程——共识、安全性和效率。共识得分由LLM判断，表明组内每辆车是否愿意执行达成的策略。

4.2.2. 基于VLM的意图规划器

基于VLM的意图规划器利用嵌入在语言模型中的泛化知识识别不寻常物体并处理复杂场景，提供更全面的决策支持。重点是提供最佳高层驾驶意图，准确指导下游规划器。为了全面有效地激活基于VLM的意图规划器的理解和决策能力，我们精心设计了分层提示词生成过程和有限的输出格式。提示词包含以可理解格式编写的感知结果，提供准确的环境信息。为收集不同环境中合理的驾驶意图，我们使用V2Xverse平台并部署专家智能体记录驾驶数据，涵盖广泛的城市场景。驾驶意图定义为导航意图和速度意图。导航意图来源于真实导航指令，而速度意图从专家驾驶速度中提取。为使VLM适应驾驶意图评估的特定任务，我们利用处理后的驾驶数据基于LoRA进行迁移学习。

4.3. 低层规划层

低层规划层专注于实时执行，将高层意图转化为几何可行的轨迹和控制命令。关键组件是意图引导的路点规划器，以高频率运行，在驾驶意图指导下进行精确规划。

意图引导的路点规划器作为连接高层驾驶意图和低层实现路径的桥梁。挑战在于如何精确地将高层意图映射到特定场景的可用路点。我们的设计包括两个主要部分：意图到路点的数据生成和模型结构。

意图到路点的数据生成：为实现精确的意图引导路点生成，我们使用专家智能体的路点作为参考，生成与预期行动一致同时满足实际场景约束的路点。基于加速度受周围物体密度影响的观察，我们提取参考车辆的实际路点，并使用环境自适应加速度模型对其进行插值，生成对应于不同驾驶意图的精细路点。

模型结构：为确保路点在同一场景中与不同驾驶意图一致，我们开发了一个基于Transformer的意图引导路点规划器，如图3所示。该模型有效地接收来自BEV占用图和前几帧BEV特征的输入，这些输入通过MotionNet编码器处理以捕获环境上下文。此外，面向目标的输入，包括目标点、导航意图和速度意图，通过MLP融合器融合形成指导上下文。多层Transformer解码器在路点查询和环境/指导上下文之间执行交叉注意力，随后通过路点解码器生成一系列路点。这些路点然后传递给控制模块以产生必要的控制信号。

▲图3｜基于低级 Transformer 的意图引导航点规划器的模型架构©️【深蓝AI】编译

05 InterDrive测试基准

为评估自动驾驶系统处理多车辆交互的能力，我们在V2Xverse仿真平台基础上提出了InterDrive基准。该基准包含10种典型的多车辆场景，每种场景都涉及多个测试车辆。我们为这些车辆分配了高度重叠的目标路径以鼓励冲突，并随机部署额外的交通参与者（车辆、行人、骑车人）作为障碍物。这些场景旨在模拟现实交通场景，多辆在路上的车辆为自动驾驶。

5.1. 场景

图4可视化了InterDrive基准中的10个场景，我们参考美国国家公路交通安全管理局（NHTSA）的碰撞前类型学构建交通场景。通过这些场景，我们评估了在处理多车辆交互中三种典型场景的能力，包括穿越交叉路口、车道合并和车道变换。

交叉路口穿越（IC）。多辆车从不同方向进入、相遇，然后离开交叉路口。包含四种不同类型的场景，视觉表示见图4（a）-（d）。为确保评估多样性，我们精心设计了车辆在交叉路口不同的入口和出口方向组合。

车道合并（LM）。车辆从不同方向合并到相同车道，可视化见图4（e）-（h）。我们构建了不同道路拓扑的场景，包括平行直行车道、T型路口和高速公路匝道。

车道变换（LC）。本研究定义了两种不同的车道变换场景。在这些场景中，多辆车最初保持平行轨迹，同向行驶。随后，它们需要执行车道变换机动，穿越相邻车辆的轨迹，到达各自的目的地。可视化见图4（i），（j）。

InterDrive基准通过多样化配置扩展每个场景，在路线路点、测试车辆数量和额外障碍物方面变化，最终生成92个不同的测试任务。交互测试车辆的数量配置为2到8辆，模拟单车可能同时直接冲突的典型车辆数量。

5.2. 评估指标

InterDrive包含五个指标：路线完成度、违规得分和驾驶得分，这些指标来自CARLA排行榜，以及附加指标：成功率。

路线完成度（RC）是测试车辆完成的总规划路线距离百分比。违规得分（IS）每个任务从1.0开始，因碰撞而按预定义折扣因子减少，评估所有测试车辆的安全性能。驾驶得分（DS）作为主要排名指标，计算为路线完成度和违规得分的乘积，同时捕获任务进度和安全性。成功率（SR）是获得满分驾驶得分的任务百分比，反映系统实现可靠驾驶性能的一致性。

06 实验

6.1. 实验设置

我们在CARLA模拟器0.9.10.1版本上实现并评估我们的方法。除实时消融外，所有实验的仿真频率设置为5 Hz。对于CoLMDriver框架中的低层流水线，我们部署PointPillars编码点云。我们使用Lora微调InternVL2-4B作为VLM意图规划器，使用Qwen2.5-3B作为LLM协商者，同时考虑准确性和效率。对于意图-路点转换器，我们使用256的嵌入尺寸和256的中等特征尺寸，以5 Hz输出20个路点。

6.2. 闭环驾驶的定量结果

高交互交通场景中的性能。表1展示了CoLMDriver在我们提出的InterDrive基准上的驾驶性能，与其他先进的闭环驾驶基线相比，包括TCP、VAD、UniAD、CoDriving和另一种基于VLM的方法LMDrive。为证明协商的必要性，我们基于交通规范构建了基于规则的方法作为比较。由于基于优化的协作规划方法闭源或在其他平台上，因此未进行比较。表格显示了InterDrive总体得分以及InterDrive-IC、InterDrive-LM和InterDrive-LC的单独性能。

CoLMDriver在所有交互场景中达到了最优的驾驶得分（DS）性能，这归功于其语言协商能力，在DS方面至少超过其他基线10.15%。三种协作式驾驶方法都优于单智能体驾驶方法，证明了合作在冲突解决中的有效性。其他基线面临的挑战包括目标识别问题，导致较低的路线完成度（RC），或由于缺乏协商而造成的碰撞事件，导致低违规得分（IS）。TCP达到相对较高的驾驶得分但成功率（SR）低，表明场景间频繁碰撞。LMDrive受益于其多视角、多模态输入和LLM能力，达到高违规得分，但在驾驶中断时遇到挑战，两辆车因接近而停止，各自让步给对方而不前进。通过语言协商可以解决意图冲突碰撞和双让步问题。

共识收敛。图5展示了有无评论者反馈的系统的评估者协商质量得分分布。当LLM仅基于对话更新其协商消息时，协商质量得分在各轮次间随机波动。然而，在评估者反馈指导下，随着协商迭代，得分呈现稳定增长。

系统组件消融。表2评估了不同系统组件对性能的影响。无协商系统（ID 1）在DS上表现接近LMDrive，展示了扎实的基线性能。然而，无动态分组机制的协商导致持续停止，导致较低的路线完成度。将Actor-Critic范式纳入协商模块进一步提高了驾驶得分。

实时性能。我们在图6中比较了理想计算情况（无推理延迟）和推理延迟情况下在InterDrive-LM上的性能。我们的CoLMDriver仅经历了6.62%的驾驶得分下降，仍保持驾驶得分超过90，展示了所提系统的推理效率。在我们的框架中，低层规划流水线可以在变化环境中基于意图指导持续生成精确执行。TCP运行速度快于我们的理想仿真，略微提高了其性能。

公共基准上的性能。我们进一步在公共Town05基准上研究了CoLMDriver的一般导航能力。为在这个单车驾驶基准上启用V2V通信，我们使周围车辆能够向自我车辆传输驾驶意图，但不改变它们自己的行为。表3比较了CoLMDriver与两种最先进的单车驾驶方法基线。我们可以看到，CoLMDriver在长短路线上都实现了优越的驾驶得分，在Town05 Long上超过ReasonNet 11%。这是因为CoLMDriver接收来自邻居的驾驶意图，从而减少了规划中的不确定性。

07 结论与局限性

在本文中，我们提出了CoLMDriver，一个创新的自动驾驶系统，利用多模态LLM进行有效的基于语言的协作规划和端到端驾驶。CoLMDriver采用高层驾驶意图指导低层路点生成，并利用多轮协商在高度交互场景中达成共识。同时，我们构建了InterDrive基准来评估自动驾驶系统在此类交互环境中的表现。广泛的闭环实验证明了CoLMDriver的有效性，突显了基于语言协商在推进协作驾驶方面的巨大潜力。当前的一个局限是语言交互演示的多样性，我们在未来工作中旨在通过构建更复杂和交互性的场景来扩展，进一步增强系统的能力和适应性。