前沿速递 | CoMAL:面向混合自主交通的协作式多智能体大模型

1 研究背景

近年来,自动驾驶技术的快速发展使其成为缓解城市交通拥堵及提高道路安全的重要手段之一。然而,现实中的交通网络复杂且动态,在自动驾驶与人类驾驶车辆并存的“混合自动驾驶”场景下,交通优化的难度显著增加。混合自动驾驶交通研究的核心在于如何通过自动驾驶车辆与人类驾驶车辆的协调互动,实现系统层面的交通流优化。这一领域的传统方法多采用强化学习(Reinforcement Learning, RL)进行模型训练。尽管RL在特定及控制良好的环境下展现出良好的性能,但其在处理未曾遭遇的复杂交通状况时的泛化能力和决策透明度仍有待提升。

大型语言模型(Large Language Models, LLMs)因其在推理和协作方面的突出表现为上述挑战提供了新的解决思路。LLMs可以嵌入常识性知识,模拟人类的合作、决策过程,适应多种复杂场景。因此,本研究提出了CoMAL(Collaborative Multi-Agent LLMs)框架,旨在利用LLMs的推理和交互能力,促进自动驾驶车辆的实时协作,从而优化混合自动驾驶交通系统中的整体交通流。

2 方法描述

本研究所提出的CoMAL框架主要由五个模块组成,分别负责环境感知、记忆存储、车辆协作、推理决策和行驶执行。如图1所示。

图1 CoMAL的整体框架。 (a) 单智能体流程:提示生成器集成了场景描述、小样本经验和共享消息,然后将其输入到LLM中。LLM随后分配任务并生成规划器。(b) 多智能体工作流包括三个模块:协作模块、推理模块和执行模块。© CoMAL的三个基准情景:环路网络由一条闭环形道路组成,车辆以循环方式连续行驶。“8字形路网” :其是环路网络的延伸,由交叉路口连接的两个环路组成。合流路网:模拟了从入口匝道进入的车辆如何对主线车辆造成干扰。

以下是对各模块的详细说明:

1.环境感知模块:环境感知模块负责从交通仿真环境中提取关键信息,并将其转化为文本描述,以便LLMs理解和处理。信息包括场景静态地图(如道路结构)和动态代理(如周围车辆的速度、位置等)。这些信息被整合成符合自然语言结构的描述,便于LLMs基于其内置知识进行有效的推理和规划。

2.记忆模块:CoMAL的记忆模块模拟人类驾驶员积累驾驶经验的过程。此模块在每次驾驶过程中更新过去的驾驶经验,使得车辆可以依据历史经验做出更优化的决策。例如,在特定场景下,记忆模块可以帮助车辆回忆曾经采取的最佳行驶策略,从而提高车辆的反应速度和应对能力。

3.协作模块:协作模块允许各自动驾驶车辆在一个共享的消息池中交流,实现多智能体之间的合作。车辆通过轮流提供建议的形式讨论策略、分配任务,从而实现动态分工。例如,在一个拥堵场景中,某辆车可能会自愿承担“编队领导者”,其余车辆则充当“跟随者”,确保车队以最优方式通过障碍区域。此模块通过高效的信息共享和角色分配,提高了系统的整体协调性。

4.推理模块:根据车辆的角色和环境描述,使用LLMs生成适合的行驶规划。例如,“编队领导者”可能会被要求保持稳定的速度,而“跟随者”则需根据前方车辆的速度和位置进行动态调整。推理模块结合了智能驾驶模型中的加速、制动和车距控制等规则,通过一个分层链式的推理过程(包括角色确认、场景理解、运动指令和规划生成),为每辆车生成定制的驾驶计划。

5.执行模块:该模块基于智能驾驶模型执行推理模块生成的形式规划,以确保车辆在实际操作中的准确性和流畅性。执行模块的核心是调整智能驾驶模型的各项参数,如目标速度、最大加速度和最小车距等,以此来控制车辆在车队中的纵向行为。这一模块的设计保证了CoMAL框架的规划能够在真实交通场景中平稳实施。

3 实验结果

3.1 实验环境配置

本研究在三个测试基准场景中,使用了OpenAI GPT-4o-mini、Qwen-72B、Qwen-32B和Qwen-7B模型进行了实验验证。场景的具体配置详见表1,评价指标选取了路网车辆的平均速度和车辆速度的标准差。

表1 基准场景配置

3.2 与人类驾驶员对比

表2对比了CoMAL框架与人类驾驶员的表现。数据显示,随着网联自动驾驶车辆数量的增加,CoMAL的整体性能不仅得到了显著提升,而且超越了人类驾驶员的水平。这一结果突显了LLM代理在实现高效协作方面的强大能力。图4通过Ring 0设置中车辆轨迹的可视化展示进一步证实了这一点,清晰地显示出CoMAL框架能够有效地稳定交通流,减少交通波动,从而提高整体交通效率和安全性。

表2 CoMAL在Flow基准场景下的定量性能评估

图4 环路0设置中车辆轨迹的可视化。环路全长230米,可容纳车辆22辆。时空图中的每条线都显示了特定车辆随时间的位置。当车辆完成环的一整圈时,其位置重置为零。左图:在没有自动驾驶车辆的情况下,人类驾驶的车辆由于固有的不稳定性而表现出走走停停的冲击波。右图:通过使用 CoMAL 框架的三辆联网自动驾驶车辆,不稳定的车辆变得稳定。

3.3 消融实验

对CoMAL框架中各组件在FE 1和Merge 1两个场景中的有效性进行了深入分析,结果如表3所示。结果表明:(1)一旦失去感知信息,智能体将无法准确理解自身与周围其他智能体之间的相对位置和运动状态,这直接削弱了其协作与推理的能力。(2)在缺乏高质量经验的情况下,智能体在讨论和推理中更容易出错。(3)协作模块的缺失导致所有智能体采用几乎相同的策略,不仅增加了系统内部的冲突和冗余工作,还可能使整体性能低于简单基于规则的模型。

表3 消融实验结果

从结果可以看出,本文提出的方法有效且显著的提高了路口的通行效率。

3.4 讨论

(1)与强化学习方法的比较

在 FE 场景中,CoMAL 展示了强大的全局协作能力,而多智能体 RL 模型则因难以区分角色而导致协作效率低下。这使得CoMAL在该场景下的性能明显优于基于RL的方法。然而,在 Merge 场景中,CoMAL 的表现不如 RL,这表明在某些情况下,CoMAL的协作机制可能未能实现全局最优。这一发现进一步强调了协作对于提升自动驾驶系统性能的关键作用。

表5 与强化学习基准算法比较

(2)不同LLM模型的比较

本文评估了不同规模的LLM在CoMAL框架下的表现,具体结果见表4。结果显示,GPT-4o-mini 实现了最好的表现。在开源模型中,Qwen 72B 与 GPT-4o-mini 相当,而 Qwen 32B 表现稍差,Qwen 7B 表现则差强人意。值得注意的是,当场景需要广泛的协作时,小规模模型的性能下降更为显著。这一发现表明,在CoMAL框架中,实现有效的协作比单纯的推理任务更具挑战性。

表4 不同LLMs的定量对比实验:平均速度和标准偏差分析

4 结论

本研究提出了一种基于LLM的多智能体协作框架。通过采用基于LLM的分层规划器,CoMAL能够灵活调整LLMs以应对复杂的驾驶任务,从而实现混合自动驾驶交通环境下的协作。在这个框架中,LLM智能体主要担任高层级任务规划的角色,与低层级的控制器协同工作,执行具体的驾驶操作。大量的实验结果证明,由LLMs驱动的多智能体系统在驾驶场景中展现出高效协作的巨大潜力。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值