前沿速递 | CoMAL：面向混合自主交通的协作式多智能体大模型

本文链接：https://blog.csdn.net/m0_59164520/article/details/144517586

1 研究背景

近年来，自动驾驶技术的快速发展使其成为缓解城市交通拥堵及提高道路安全的重要手段之一。然而，现实中的交通网络复杂且动态，在自动驾驶与人类驾驶车辆并存的“混合自动驾驶”场景下，交通优化的难度显著增加。混合自动驾驶交通研究的核心在于如何通过自动驾驶车辆与人类驾驶车辆的协调互动，实现系统层面的交通流优化。这一领域的传统方法多采用强化学习（Reinforcement Learning, RL）进行模型训练。尽管RL在特定及控制良好的环境下展现出良好的性能，但其在处理未曾遭遇的复杂交通状况时的泛化能力和决策透明度仍有待提升。

大型语言模型（Large Language Models, LLMs）因其在推理和协作方面的突出表现为上述挑战提供了新的解决思路。LLMs可以嵌入常识性知识，模拟人类的合作、决策过程，适应多种复杂场景。因此，本研究提出了CoMAL（Collaborative Multi-Agent LLMs）框架，旨在利用LLMs的推理和交互能力，促进自动驾驶车辆的实时协作，从而优化混合自动驾驶交通系统中的整体交通流。

2 方法描述

本研究所提出的CoMAL框架主要由五个模块组成，分别负责环境感知、记忆存储、车辆协作、推理决策和行驶执行。如图1所示。

图1 CoMAL的整体框架。 (a) 单智能体流程：提示生成器集成了场景描述、小样本经验和共享消息，然后将其输入到LLM中。LLM随后分配任务并生成规划器。(b) 多智能体工作流包括三个模块：协作模块、推理模块和执行模块。© CoMAL的三个基准情景：环路网络由一条闭环形道路组成，车辆以循环方式连续行驶。“8字形路网” ：其是环路网络的延伸，由交叉路口连接的两个环路组成。合流路网：模拟了从入口匝道进入的车辆如何对主线车辆造成干扰。

以下是对各模块的详细说明：

1.环境感知模块：环境感知模块负责从交通仿真环境中提取关键信息，并将其转化为文本描述，以便LLMs理解和处理。信息包括场景静态地图（如道路结构）和动态代理（如周围车辆的速度、位置等）。这些信息被整合成符合自然语言结构的描述，便于LLMs基于其内置知识进行有效的推理和规划。

2.记忆模块：CoMAL的记忆模块模拟人类驾驶员积累驾驶经验的过程。此模块在每次驾驶过程中更新过去的驾驶经验，使得车辆可以依据历史经验做出更优化的决策。例如，在特定场景下，记忆模块可以帮助车辆回忆曾经采取的最佳行驶策略，从而提高车辆的反应速度和应对能力。

3.协作模块：协作模块允许各自动驾驶车辆在一个共享的消息池中交流，实现多智能体之间的合作。车辆通过轮流提供建议的形式讨论策略、分配任务，从而实现动态分工。例如，在一个拥堵场景中，某辆车可能会自愿承担“编队领导者”，其余车辆则充当“跟随者”，确保车队以最优方式通过障碍区域。此模块通过高效的信息共享和角色分配，提高了系统的整体协调性。

4.推理模块：根据车辆的角色和环境描述，使用LLMs生成适合的行驶规划。例如，“编队领导者”可能会被要求保持稳定的速度，而“跟随者”则需根据前方车辆的速度和位置进行动态调整。推理模块结合了智能驾驶模型中的加速、制动和车距控制等规则，通过一个分层链式的推理过程（包括角色确认、场景理解、运动指令和规划生成），为每辆车生成定制的驾驶计划。

5.执行模块：该模块基于智能驾驶模型执行推理模块生成的形式规划，以确保车辆在实际操作中的准确性和流畅性。执行模块的核心是调整智能驾驶模型的各项参数，如目标速度、最大加速度和最小车距等，以此来控制车辆在车队中的纵向行为。这一模块的设计保证了CoMAL框架的规划能够在真实交通场景中平稳实施。

3 实验结果

3.1 实验环境配置

本研究在三个测试基准场景中，使用了OpenAI GPT-4o-mini、Qwen-72B、Qwen-32B和Qwen-7B模型进行了实验验证。场景的具体配置详见表1，评价指标选取了路网车辆的平均速度和车辆速度的标准差。

表1 基准场景配置

3.2 与人类驾驶员对比

表2对比了CoMAL框架与人类驾驶员的表现。数据显示，随着网联自动驾驶车辆数量的增加，CoMAL的整体性能不仅得到了显著提升，而且超越了人类驾驶员的水平。这一结果突显了LLM代理在实现高效协作方面的强大能力。图4通过Ring 0设置中车辆轨迹的可视化展示进一步证实了这一点，清晰地显示出CoMAL框架能够有效地稳定交通流，减少交通波动，从而提高整体交通效率和安全性。

表2 CoMAL在Flow基准场景下的定量性能评估

图4 环路0设置中车辆轨迹的可视化。环路全长230米，可容纳车辆22辆。时空图中的每条线都显示了特定车辆随时间的位置。当车辆完成环的一整圈时，其位置重置为零。左图：在没有自动驾驶车辆的情况下，人类驾驶的车辆由于固有的不稳定性而表现出走走停停的冲击波。右图：通过使用 CoMAL 框架的三辆联网自动驾驶车辆，不稳定的车辆变得稳定。

3.3 消融实验

对CoMAL框架中各组件在FE 1和Merge 1两个场景中的有效性进行了深入分析，结果如表3所示。结果表明：（1）一旦失去感知信息，智能体将无法准确理解自身与周围其他智能体之间的相对位置和运动状态，这直接削弱了其协作与推理的能力。（2）在缺乏高质量经验的情况下，智能体在讨论和推理中更容易出错。（3）协作模块的缺失导致所有智能体采用几乎相同的策略，不仅增加了系统内部的冲突和冗余工作，还可能使整体性能低于简单基于规则的模型。

表3 消融实验结果

从结果可以看出，本文提出的方法有效且显著的提高了路口的通行效率。

3.4 讨论

（1）与强化学习方法的比较

在 FE 场景中，CoMAL 展示了强大的全局协作能力，而多智能体 RL 模型则因难以区分角色而导致协作效率低下。这使得CoMAL在该场景下的性能明显优于基于RL的方法。然而，在 Merge 场景中，CoMAL 的表现不如 RL，这表明在某些情况下，CoMAL的协作机制可能未能实现全局最优。这一发现进一步强调了协作对于提升自动驾驶系统性能的关键作用。

表5 与强化学习基准算法比较

（2）不同LLM模型的比较

本文评估了不同规模的LLM在CoMAL框架下的表现，具体结果见表4。结果显示，GPT-4o-mini 实现了最好的表现。在开源模型中，Qwen 72B 与 GPT-4o-mini 相当，而 Qwen 32B 表现稍差，Qwen 7B 表现则差强人意。值得注意的是，当场景需要广泛的协作时，小规模模型的性能下降更为显著。这一发现表明，在CoMAL框架中，实现有效的协作比单纯的推理任务更具挑战性。

表4 不同LLMs的定量对比实验：平均速度和标准偏差分析

4 结论

本研究提出了一种基于LLM的多智能体协作框架。通过采用基于LLM的分层规划器，CoMAL能够灵活调整LLMs以应对复杂的驾驶任务，从而实现混合自动驾驶交通环境下的协作。在这个框架中，LLM智能体主要担任高层级任务规划的角色，与低层级的控制器协同工作，执行具体的驾驶操作。大量的实验结果证明，由LLMs驱动的多智能体系统在驾驶场景中展现出高效协作的巨大潜力。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述