聊聊LLM 时代的 multi-agent 系统协作关系和竞争关系

聊聊LLM 时代的 multi-agent 系统协作关系和竞争关系

原创作者:紫气东来原创地址:https://zhuanlan.zhihu.com/p/665644399

事实上,在 LLM 的背景下,multi-agent 系统已经逐渐成为主流的应用方案。本文将试图从多个角度研究和讨论以 LLM 为基础的 multi-agent 系统的发展过程及算法特点。

一、前 LLM 时代的 multi-agent 系统

在 LLM 出现之前,multi-agent 主要存在于强化学习和博弈论(game theory) 的相关研究中。由于笔者之前从事强化学习相关研究,那么本节将主要介绍强化学习中的 multi-agent 系统。

multi-agent 系统相比于 single agent 更加复杂,因为每个 agent 在和环境交互的同时也在和其他 agent 进行直接或者间接的交互。因此,multi-agent 强化学习要比 single agent 的建模和优化更困难,其难点主要体现在以下几点:

  • 由于多个 agent 在环境中进行实时动态交互,并且每个 agent 在不断学习

### LLM-Based Multi-Agent System 实现与应用 #### 大型语言模型多代理系统概述 LLM-based Multi-Agent System (LLM-MA) 是一种先进的AI架构,该架构融合了大语言模型多智能体系统的优点。此系统能够处理复杂的任务并支持多种应用场景,如科学辩论、自动GUI测试等[^1]。 #### 科学辩论场景的应用实例 在特定的任务中,比如科学辩论场景下,LLM-MA 中的智能体会互相交流观点以提升集体推理能力。这样的互动有助于提高大规模多任务语言理解(MMLU)、解决数学问题以及应对 StrategyQA 类挑战的能力[^3]。 #### 自动化GUI 测试案例研究 另一个实际例子来自 DroidAgent 项目,在该项目里开发了一个基于大型语言模型的自主 GUI 测试代理。这个代理能依据应用程序功能设定具体的目标并通过交互完成它们,进而增强了 Android 应用程序界面测试的效果范围[^2]。 #### 技术细节探讨 对于技术实现方面,考虑到不同类型的环境需求,例如捕食者与猎物模拟器或是协作通讯导航平台,研究人员设计了一套机制让所有参与节点可以在一定条件下发送受限长度的信息给其他成员。当涉及到 SchedNet 的性能评估时,则会对比几种不同的方法论来进行分析,包括但不限于 IDQN COMA 这样的无通信协议方案,还有像 DIAL 变种那样允许有限带宽内传递数据的技术路线[^4]。 ```python class Agent: def __init__(self, id, bandwidth_limit): self.id = id self.bandwidth_limit = bandwidth_limit def broadcast_message(self, message_content): if len(message_content) <= self.bandwidth_limit: print(f"Agent {self.id} broadcasts: {message_content}") else: raise ValueError("Message exceeds the allowed bandwidth limit.") def simulate_agents_communication(agents_list, environment_setup): for agent in agents_list: try: # Simulate broadcasting within given constraints of each agent's setup. agent.broadcast_message(environment_setup['test_message']) except Exception as e: print(e) # Example usage with two agents having different bandwidth limits. simulate_agents_communication([Agent(id=1, bandwidth_limit=50), Agent(id=2, bandwidth_limit=80)], {'test_message': 'This is a test.'}) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

强化学习曾小健

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值