MASLab：基于LLM的多智能体系统统一且全面的代码库-CSDN博客

本文链接：https://blog.csdn.net/u013524655/article/details/148201385

叶锐 ${ }^{1}$ 黄科端 ${ }^{1}$ 吴启敏 ${ }^{1}$
蔡玉珠 ${ }^{1}$ 金天 ${ }^{1}$ 庞乡河 ${ }^{1}$ 刘向瑞 ${ }^{1}$ 苏佳琪 ${ }^{1}$
钱晨 ${ }^{1}$ 汤博涵 ${ }^{3}$ 梁凯曲 ${ }^{4}$ 陈佳奥 ${ }^{5}$ 胡月 ${ }^{6}$ 尹振飞 ${ }^{3,7}$
石荣业 ${ }^{8}$ 安波 ${ }^{9}$ 高扬 ${ }^{10}$ 吴文军 ${ }^{8}$ 白雷 ${ }^{2,7}$ 陈思恒 ${ }^{1,7}$
${ }^{1}$ 上海交通大学 ${ }^{2}$ 上海人工智能实验室 ${ }^{3}$ 牛津大学
${ }^{4}$ 普林斯顿大学 ${ }^{5}$ Meta ${ }^{6}$ 密歇根大学 ${ }^{7}$ 悉尼大学
${ }^{8}$ 北京航空航天大学 ${ }^{9}$ 南洋理工大学 ${ }^{10}$ 南京大学
MASLab: https://github.com/MASWorks/MASLab

摘要

基于大语言模型（LLM）的多智能体系统（MAS）在提升单一LLM解决复杂多样任务的能力方面展现了显著潜力。尽管取得了相当大的进展，但该领域缺乏一个整合现有方法的统一代码库，导致重复实现、不公平比较和研究者进入门槛高等问题。为了解决这些问题，我们提出了MASLab，这是一个统一、全面且研究友好的基于LLM的MAS代码库。（1）MASLab整合了超过20种跨多个领域的已建立方法，每种方法都通过逐步输出与官方实现进行严格验证。（2）MASLab提供了一个统一的环境，包含各种基准测试以确保方法之间的公平比较，保证一致的输入和标准化的评估协议。（3）MASLab在共享的精简结构中实现方法，降低了理解和扩展的门槛。基于MASLab，我们进行了广泛的实验，涵盖10+个基准测试和8个模型，为研究人员提供了对当前MAS方法全景的清晰和全面的认识。MASLab将继续发展，跟踪该领域的最新进展，并邀请更广泛的开源社区贡献力量。

图1：MASLab：基于LLM的MAS统一、全面且研究友好的代码库。我们支持公平比较超过20种方法，其正确性经过人工验证。

1 引言

大型语言模型（LLMs）[1, 2, 3, 4, 5] 取得了显著的成功，并正在越来越多地应用于各个领域 [6, 7, 8, 9]。然而，尽管它们不断进步，单个 LLM 本质上面临诸如不可靠和随机生成 [10, 11]、幻觉 [12, 13] 和难以处理复杂、多步骤任务 [14, 15] 等限制。这些限制阻碍了它们单独有效应对整个现实世界应用的能力。

单个 LLM 的局限性推动了基于 LLM 的多智能体系统（MAS）[16, 17, 18, 19] 的新兴研究，其中多个智能体各自具有不同的角色、上下文和工具，协作以更有效地解决复杂任务。这种范式在一系列应用中展现出巨大的前景，包括代码生成 [16, 20]、数学问题解决 [21, 22]、学术研究 [23, 24] 和数据合成 [25, 26]。在过去的一年中，该领域经历了快速发展，从依赖手动设计的固定系统 [16, 27, 20, 28, 29, 21] 的早期 MAS 方法演变为更具动态性的系统，其中智能体的角色和行为是可适应的 [18, 19, 30, 31, 32]。这一持续的演变正引导该领域朝着更大的自动化和泛化方向发展，具有创造更智能系统的潜力。

尽管基于 LLM 的 MAS 取得了快速进展，但该领域缺乏一个整合各种方法和算法的统一代码库。这一空白导致了一些关键问题，阻碍了该领域的长期进步：(1) 冗余努力。没有共享的、可访问的资源，研究人员耗费大量时间重新实现现有工作，分散了创新贡献的努力。(2) 不公平比较。个别代码库的不同实现设计（如不同的数据集预处理和评估协议）使得方法之间的公平可靠比较变得复杂。(3) 高进入门槛。新手在不同存储库中导航时面临困难，没有明确的起点。解决这些问题对于加速研究和促进该领域的连贯进步至关重要。然而，将原本采用不同代码库风格、架构和依赖项的大量方法统一到一个代码库中是一个重大挑战。这不仅需要大量的重新实现和验证工作，还需要对所有方法进行全面理解以实现统一。

为了弥补这一差距，我们介绍了 MASLab，这是第一个基于 LLM 的 MAS 统一代码库，整合了超过20种已建立的方法（例如，最近顶级会议中最常引用或接受的方法），并具有连贯的高层结构和标准化评估；见表1概述。(1) MASLab 整合了多个领域的多样化研究——包括通用任务 [29]、编码 [16] 和数学 [21]——涵盖了从2023年3月到2025年3月的代表性进展。集成到 MASLab 的每种方法都通过逐步输出与其官方实现进行严格验证，极大地减少了未来研究人员的冗余再实现努力。(2) MASLab 支持跨广泛基准的统一评估，确保一致的输入和标准化的评估协议。这有助于可靠和公平的比较，强调核心方法论差异而非实现差异。(3) 所有方法都在一个精简的高层结构中实现，每个方法都被封装为核心推理函数，处理查询并提供 MAS 响应。这种透明的结构明确突出了关键方法论组件，显著降低了进入门槛，并使研究人员能够轻松理解、扩展和创新现有的方法。

基于 MASLab，我们进行了全面的实验以基准化实现的方法，为研究社区提供了对当前基于 LLM 的 MAS 状态的清晰理解。我们的评估涵盖了10多个跨越不同领域的基准测试——包括通用问答、数学、编码、科学和医学——使用8个 LLM 主干，包括Llama-3.3-70B-Instruct、Qwen-2.5-7/14/32/72B-Instruct 和 GPT-4o-mini/4.1-mini/4.1模型。我们的分析检查了先前研究中采用的不同评估协议的影响、关于方法配置和模型规模的缩放行为以及失败案例。值得注意的是，我们证明了评估协议的差异可能导致性能排名的显著变化，强调了统一代码库对于公平和可重复比较的重要性。

2 相关工作

基于LLM的MAS。基于LLM的多智能体系统（MAS）通过启用多个智能体之间的协作互动来扩展LLM的能力。CAMEL [17] 和 AutoGen [34] 主要关注于双智能体（用户-助手）角色扮演，而MetaGPT [20] 和 ChatDev [16] 则分配
表1：MAS-Lab目前支持的24种方法描述。我们展示了几种关键视角的MAS方法。(1) 角色：方法中的智能体角色是固定的还是动态的。(2) 拓扑：方法中的拓扑是固定的还是动态的。(3) 工具：方法是否包含工具使用。(4) 优化：方法是否可优化。(5) 泛化：方法是否可以泛化以处理多样化任务。

编号	方法学	场所	角色	拓扑	工具	优化	泛化
单智能基线
1	Vanilla LLM	-	固定	固定	否	否	是
2	CoT [33]	NeurIPS 2022	固定	固定	否	否	是
通用任务的多智能系统
3	CAMEL [17]	NeurIPS 2023	固定	固定	否	否	是
4	AutoGen [34]	ICLR-W 2024	固定	固定	是	否	是
5	自我一致性 [35]	ICLR 2024	固定	固定	否	否	是
6	AgentVerse [29]	ICLR 2024	动态	固定	否	否	是
7	LLM 辩论 [27]	ICML 2024	固定	固定	否	否	预定义角色
8	GPTSwarm [32]	ICML 2024	固定	动态	是	是	验证所需
9	DyLAN [31]	COLM 2024	固定	动态	否	否	预定义角色
10	MAD [28]	EMNLP 2024	固定	固定	否	否	预定义角色
11	自我改进 [36]	NeurIPS 2024	固定	固定	否	否	是
12	MacNet [37]	ICLR 2025	固定	固定	否	否	预定义角色
13	ADAS [18]	ICLR 2025	固定	固定	是	是	验证所需
14	AFlow [30]	ICLR 2025	固定	固定	是	是	验证所需
15	MAV [38]	ICLR-W 2025	固定	固定	否	否	是
16	MAS-GPT [19]	ICML 2025	动态	动态	是	是	是
编码任务的多智能系统
17	MetaGPT [20]	ICLR 2024	固定	固定	是	否	编码特定
18	ChatDev [16]	ACL 2024	固定	固定	是	否	编码特定
19	MapCoder [39]	ACL 2024	固定	固定	是	否	编码特定
20	EvoMAC [40]	ICLR 2025	动态	动态	是	否	编码特定
数学任务的多智能系统
21	MACM [21]	NeurIPS 2024	固定	固定	否	否	数学特定
科学任务的多智能系统
22	MedAgents [41]	ACL-F 2024	固定	固定	否	否	医学特定
需要工具的任务的多智能系统
23	OWL-Roleplaying [42]	GitHub 2025	固定	固定	是	否	是（具备适当工具）
24	ReAct-MASLab [43]	ICLR 2023	固定	固定	是	否	是（具备适当工具）

多个专门角色（例如，编码员、审查员）用于固定的软件开发流程。辩论风格系统 [27, 28, 44] 使用多个智能体提出和批评解决方案。AgentVerse [29] 和 DyLAN [31] 允许在任务执行期间迭代调整团队配置。

虽然这些固定角色架构展示了MAS的潜力，但它们严重依赖于手动定义的角色和工作流，限制了跨任务的泛化能力。为了解决这个问题，最近的研究探索了自动工作流生成 [19, 18, 45, 46, 47]。GPTSwarm [32] 将智能体建模为一个可以通过验证反馈优化的LLM操作图。同样，ADAS [18] 和 AFlow [30] 利用一个强大的元智能体来迭代设计智能体工作流。MAS-GPT [19] 训练一个LLM，根据每个用户查询生成可执行的MAS。

然而，这些方法是在孤立的代码库中实现的，导致了重复的努力、不一致的评估和陡峭的进入壁垒。MASLab通过提供一个统一且全面的代码库解决了这些问题，该代码库在一个可扩展的框架内支持上述所有方法。

基于LLM的智能体代码库。与算法进步并行，出现了几个开源框架，以促进基于LLM的智能体的开发。CAMEL [17] 和 AutoGen [34] 引入了基于角色扮演的对话智能体框架。LangChain [48]、LangGraph [49] 和 OpenAgents [50] 提供了构建LLM驱动的应用程序和工作流的低代码环境。然而，这些框架都不是专门为研究目的设计的：它们缺乏现有文献中代表性的多智能体方法的实现，

图2：MASLab代码库概览。MASLab整合并统一了从数据预处理到评估的整个流程，确保所有方法的输入一致，非算法配置标准化，评估协议一致且准确。所有20+种方法都由类似的Python类精简结构表示。
并为系统评估提供有限支持。相比之下，我们的MASLab提供了第一个全功能研究友好型代码库，整合了社区在基于LLM的MAS方面的集体进展。

3 MASLab

MASLab 是一个统一、全面、研究导向的基于 LLM 的多智能体系统（MAS）代码库。它整合了超过20种已发表的 MAS 方法，具有统一的基本推理配置和评估协议，便于研究人员快速、公平地进行算法比较。所有方法都通过将其中间输出与官方实现进行比较来进行验证。

3.1 MAS 推理

为了统一和简化该领域中多样化的 MAS 代码库，MASLab 在推理过程中重点关注四个方面，以确保不同方法之间的一致性和公平性：MAS 表示、输入、配置和可用资源。这些方面旨在消除传统上阻碍跨方法比较和结果复制的差异。

MAS 的精简表示。MASLab 中的每种 MAS 方法都被抽象为一个 Python 类，所有这些类都继承自一个公共基类。这个基类提供了跨方法的共享功能，例如发出 LLM 请求和跟踪 LLM token 消耗。每种方法的核心是一个推理函数，该函数接收一个数据样本（例如，一个数学问题）作为输入，并输出由 MAS 生成的解决方案。通过这种方式标准化表示，每种 MAS 方法的结构得以简化，研究人员只需检查推理函数即可清楚了解关键步骤。在许多情况下，推理过程进一步模块化，具体组件被封装为额外的函数，以突出任务解决的不同阶段，例如团队招募和代码执行。这种设计确保了不同 MAS 方法中的复杂性以一致且易于理解的方式处理，同时保留了每种方法的独特特性。对于基于优化的方法 [18, 32, 30]，另一个核心优化函数将处理验证集以生成优化的 MAS。有关重新实现的详细信息，请参阅第 D 节。

一致的输入。MASLab 标准化了所有 MAS 方法的输入预处理，通过消除差异确保公平比较。例如，MapCoder [39]、Reflexion [51] 和 EvoMAC [40] 对 MBPP 数据集使用不同的预处理方式，使得性能差异难以解释。MASLab 的统一预处理管道确保所有方法在相同的数据上运行，减轻了研究人员手动准备数据集的需求。

共享资源。MASLab 统一了 MAS 方法所需的底层资源，包括 LLM 和外部工具。它支持外部托管 API 和本地部署模型，覆盖了广泛使用的 LLM。集成的工具包提供了常见的实用工具，如代码执行（通过沙箱 [52] 保护）、网络搜索和图像分析——这些都是 MAS 设计中经常需要的功能。这些共享组件消除了冗余工程
努力并促进了可重复性。此外，MASLab 被设计为可扩展并与正在进行的开源开发（例如 MCP [53]）兼容，确保长期适应性。

统一配置。MASLab 标准化所有方法的非算法配置，以确保公平和一致的比较。这包括对齐 LLM 设置（例如最大 token 限制）和工具参数（例如代码执行的超时时间）。这种一致性消除了由实现级别差异引入的混淆因素，使性能比较反映真正的方法学差异。

3.2 MAS 评估

准确、自动和可扩展的评估协议对于所有 AI 领域总是至关重要的。然而，现有的 MAS 工作通常采用不一致的评估程序，引入了混淆变量，阻碍了公平比较。例如，某些方法可能针对特定的评估启发式方法（例如基于规则的字符串匹配）进行定制，这可以通过强调格式特定的提示来欺骗代理，从而在不反映真实智能增益的情况下夸大性能。这些问题凸显了需要标准化、稳健的评估协议，以反映真实的任务解决能力而不是格式技巧。

使用真实答案评估响应。为了解决这个问题，MASLab 采用了一个以 LLM 为基础的统一评估框架，该框架基于真实答案，旨在评估语义正确性而非表面格式。我们支持两种主要变体：(1) 一个两步管道使用通用 LLM，首先从 MAS 生成的输出中提取最终答案，然后将其与真实值进行比较以确定正确性；(2) 一种直接评分方法使用任务特定的评估器（例如 xVerify [54]），这些评估器经过微调以评估各种领域的正确性。此外，MASLab 还包括 MAS 文献中常用的三种基于规则的评估策略。

令人惊讶的是，我们在 MATH [55] 基准上的实证结果（图3）表明，评估协议的选择显著影响绝对分数和方法排名。例如，在基于 LLM 的两步评估下，MAV [38] 排名第一，但在 DyLAN 的基于规则的方案下 [31] 排名第十。相反，DyLAN 本身从第五名上升到第三名。同样，当从基于 LLM 的两步评估切换到 Hendrycks 风格的基于规则的指标 [55] 时，AgentVerse 的准确率从79.0下降到25.6。手动检查（表4）确认了基于 LLM 的评估更高的可靠性，其中两步法和 xVerify 方法与人类判断的一致性均超过98%，而表现最佳的基于规则的方法仅达到65%。考虑到性能-成本权衡，MASLab 默认使用 xVerify，同时保持随着评估方法的发展开放改进的空间。

使用测试用例评估编码任务。对于编码任务，由于通常没有真实标签，MASLab 同样推广了 LLM 辅助评估。由于像 xVerify 这样的工具在这种情况下不适用，我们采用了一个两步方法：(1) LLM 从 MAS 输出中提取可执行代码，给定原始查询；(2) 提取的代码在提供的测试用例集合上执行以确定正确性。此过程确保评估集中在功能有效性上，并抽象掉了格式或冗长性上的不一致。所有执行都在沙箱中进行 [52]，以确保安全和一致性。

4 实证研究

实验设置。我们的实验涵盖了 Llama (Llama-3.3-70B-Instruct [4])、Qwen (Qwen-2.5-7/14/32/72B-Instruct [56]) 和 GPT (GPT-4omini/4.1mini/4.1 [57, 58, 59]) LLMs。我们设定了默认的最大 token 限制为2048，温度为0.5。我们的数据集涵盖了包括数学（MATH [55], GSM-Hard [60], AQUA-RAT [61], AIME-2024）、科学（SciBench [62], GPQA [63]）、知识（MMLU-Pro [64]）、医学（MedMCQA [65]）、编码（HumanEval [66], MBPP [67]）和AI助手（GAIA [68]）在内的多个领域。

4.1 当前 MAS 方法的现状

在不同领域的通用 MAS 比较。我们通过在不同领域（包括数学、科学、知识、医学和编码）上比较它们，展示了当前 MAS 方法（那些适用于通用任务的方法）的现状，详见表2。从表中我们可以观察到以下几点：(1) 没有一种方法能在所有领域中占据主导地位，这表明未来还有很大的空间开发能够在更多领域上表现良好的方法。(2) 使用不同的后端模型可能会导致不同的格局。例如，使用 Llama-3.3-70B-Instruct 时，AgentVerse [29] 和 DyLAN [31] 的表现优于 Single，而使用 Qwen-2.5-72B-Instruct 时则表现较差。一种假设是 Llama-3.3-70B-Instruct 的协作能力比 Qwen-2.5-72B-Instruct 更强，因为我们看到最佳 MAS 与 Single 之间的差距从 $\%$ 减少到 $\%$ . 这表明探索最适合 MAS 的 LLM 或训练更适合的 LLM 是一个有趣的未来方向。(3)

图5：检查编码特定方法（MapCoder [39] 和 EvoMAC [40]）。使用 GPT-4o-mini 时，EvoMAC 表现最佳；使用 Llama-3.3-70B-Instruct 时，MapCoder 领先。

图6：基于优化的方法（GPTSwarm [32] 和 AFlow [30]）在 MATH 数据集上的表现。

图7：检查 MAS 作为 GAIA [68] 上的人工智能助手。(1) 为代理配备工具（OWLRoleplaying 和 MASLab-ReAct）显著提高了 MAS 的性能。(2) 使用更强的 LLM 时，性能提升更为显著。(3) 我们的 MASLab-ReAct 表现最佳。

一般来说，MAS-GPT [19] 和 LLM-Debate [27] 是在多个领域和 LLM 上表现最好的两种方法，主要归功于它们的数据集无关设计。
除了性能比较外，我们在图4和图11中比较了方法之间的性能-成本权衡。从图中可以看出，一般来说，表现更好的方法会消耗更多的 token，其中位于拟合线之上的方法更具成本效益。
检查编码特定方法。我们使用 GPT-4o-mini 和 LLama-3.3-70B-Instruct 作为后端，在 HumanEval 和 MBPP 上比较了两种编码特定方法 MapCoder [39] 和 EvoMAC [40]。图5的结果显示，性能与底层 LLM 密切相关。具体来说，EvoMAC [40] 在与 GPT-4o-mini 配对时始终优于其他方法，而 MapCoder [39] 在与 LLaMA-3.3-70B-Instruct 配对时取得了最佳结果，特别是在 MBPP 上。这种差异可能是由于后端特定的提示优化所致：例如，EvoMAC [40] 主要在其原始工作中使用 GPT-4o-mini 开发和调整。
检查基于优化的方法。我们在 MATH [55] 数据集上比较了两种基于优化的方法 AFlow [30] 和 GPTSwarm [32]。按照 AFlow [30] 的原始设置，我们将 Claude-3.5-Sonnet [2] 作为优化器，GPT-4o-mini [57] 作为执行器。测试期间的评估协议与优化过程中的评估协议相匹配（AFlow 的基于规则的评估）。图6报告了优化所需的成本和取得的性能。我们看到 AFlow [30] 虽然优化成本最高，但也取得了最佳性能；而在此设置下，GPTSwarm [32] 在优化后性能下降。这种差异可能源于 AFlow 的基于 LLM 的优化比 GPTSwarm 的数值方法更有效，这表明应仔细考虑优化策略以确保有效性。
检查 MAS 作为 AI 助手。尽管我们之前的实验主要集中在标准的 LLM 基准上——MAS 的改进有时可能显得微不足道——这是由于目前缺乏专门针对 MAS 的基准。然而，这种评估有助于建立对 MAS 在不同场景下的性能的广泛理解。
在这里，我们评估 MAS 在一个更合适的基准上的表现：GAIA [68]，它是为评估增强工具的 AI 助手而设计的。在这个实验中，我们为代理提供了一套工具，包括一个代码

图8：在GPQA-Diamond上检查计算缩放特性。MASLab 提供了一个平台，可以方便地检查和选择方法。在这里，我们看到自我一致性（Self-Consistency）和 AgentVerse 实现了更好的成本-性能权衡。

图9：在GPQA-Diamond和MMLU-Pro上检查大小缩放特性。LLM-Debate 总体表现最佳。一些方法（例如 AgentVerse）需要模型达到足够的能力后，MAS 才能生效。
执行器、网络搜索引擎、文档阅读器和图像/音频/视频分析实用程序（详见C.2节）。我们考虑了两个具有迭代规划和行动的代表性 MAS 方法：OWL-Roleplaying [42] 和我们实现的 MASLab-ReAct，后者受 ReAct 范式 [43] 的启发。我们使用两个最近的 OpenAI 模型——GPT-4.1-mini 和 GPT-4.1 [59]——进行实验。如图7所示，我们的发现如下：(1) 为代理配备工具显著提高了 MAS 的性能，超越了单代理基线和无工具的 MAS 方法。(2) 使用更强的 LLM 后端时，工具带来的性能提升更为明显。例如，使用 GPT-4.1-mini 时，MASLab-ReAct 相对于单 LLM 基线实现了 91% 的相对改进，而使用 GPT-4.1 时更是达到了惊人的 171% 改进。(3) 表5展示了性能-成本权衡。MASLab-ReAct 不仅实现了最佳性能，而且消耗的 token 数量不到次优方法 OWL-Roleplaying 的一半。我们在图10中提供了失败分析。

4.2 缩放特性

作为一个统一的代码库，我们的 MASLab 为研究人员和从业者提供了一个平台，可以方便地检查、探索和选择不同的方法。例如，我们可以通过简单修改一些配置来探索不同方法的缩放特性。
计算/推理时间的缩放。作为例子，我们使用 Llama-3.3-70B-Instruct [4] 作为后端，在 GPQA-Diamond [63] 基准上比较了三种可配置方法，包括 Self-Consistency [35]、LLM-Debate [27] 和 AgentVerse [29]，以检查哪种方法具有最佳的计算缩放特性。可配置参数为：Self-Consistency [35] 的并行解数量；LLM-Debate [27] 的辩论智能体数量和辩论轮数；AgentVerse [29] 的招募智能体数量、循环轮数和批评轮数。我们在图8中绘制了比较结果。我们看到 (1) Self-Consistency 和 AgentVerse 实现了最佳的成本-性能权衡，因为它们的点大多位于左上角。(2) 一般来说，增加计算可以提高这些检查方法的性能。对于 AgentVerse，将循环轮数从3增加到5带来了最大的性能提升。对于 LLM-Debate，在这种情况下，增加智能体数量比增加轮数更有效。
后端模型大小的缩放。我们通过比较三种代表性 MAS 方法和一个单智能体基线在 GPQA-Diamond [63] 和 MMLUPro [64] 上的表现，评估了后端模型大小缩放的影响。为此，我们采用了 Qwen-2.5 instruct 系列，该系列提供了一系列不同大小的模型——7B、14B、32B 和 72B——允许进行受控的缩放实验。如图9所示，我们观察到以下几点：(1) 总体而言，所有方法的性能随着模型大小的增加而提高，表明更强的 LLM 后端通常对 MAS 和单智能体方法都有好处。值得注意的是，LLM-Debate 在 GPQA-Diamond 上获得了特别强的收益。
(2) 在 MMLU-Pro 上，出现了两个异常值：使用 7B 和 14B 后端的 AgentVerse 表现显著低于其他方法。手动检查发现，这些较小的模型往往无法正确遵循指令格式，导致输出偏离预期响应模式（详见第 4.3 节）。(3) 这些观察结果表明，依赖精确格式、中间推理步骤或结构化智能体间通信（如角色分配、投票或顺序规划）的 MAS 方法可能需要来自后端模型的最低语言能力阈值。低于此阈值时，MAS 设计的好处可能被基本任务遵守的失败所掩盖。这指出了一个有趣的未来方向：设计对后端模型限制更健壮的 MAS 方法，或调整交互协议以更好地适应较小、能力较低的 LLM。

4.3 失败分析

在这里，我们通过分析错误日志来探讨 MAS 方法失败的原因。
格式错误。格式错误是许多 MAS 方法中常见的失败类型，其中 LLM 未能以所需格式生成响应。一个显著的例子发生在 AgentVerse [29] 的招募步骤中，其中 LLM 被要求以特定格式输出预定数量的智能体。为调查这一点，我们使用 Qwen-2.5-14B-Instruct 作为模型后端，分析了图9中的一个异常情况。我们将错误输出分类为三类：错误答案（即 MAS 生成了错误的最终答案）、格式错误

表3：使用 Qwen-2.5-14B-Instruct 作为后端的 AgentVerse [29] 错误分析。除了答案错误之外，所有错误都是由格式错误引起的。

数据集	错误	格式	其他
GPQA-D	$\%$	$\%$	$\%$
MMLU-Pro	$\%$	$\%$	$\%$
MATH	$\%$	$\%$	$\%$

（即 MAS 因格式问题未能生成最终答案）和其他。如表3所示，格式错误占了很大一部分失败原因。在其他方法如 MAD [28] 和 DyLAN [31] 中也观察到了类似的问题。这些发现强调了 LLM 基础的 MAS 中的一个关键挑战：成功不仅取决于推理或任务理解，还取决于模型满足严格格式要求的能力。提高格式遵循能力或放松这些约束条件可以显著提高系统可靠性。

工具增强情景中的错误分析。

我们调查了 OWLRoleplaying 在 GAIA 基准上的表现，该基准涵盖了任务解决过程中最多样化的组件，使其成为全面失败分析的理想案例研究。我们的分析表明，在此背景下，失败案例占所有样本的 $\%$ 。然而，只有 $\%$ 的失败源于不正确的最终答案，而 $\%$ 归因于工具使用错误。这些发现表明，未来的研究不仅应专注于增强智能体的工具处理能力，还应改进工具本身的质量——特别是其稳定性和效率——以创建更强大和有效的 MAS。我们相信，开源社区中 MCP 工具的进步可以显著推动 MAS 的发展。

5 结论

本文介绍了 MASLab，这是一个统一、全面、研究友好的基于 LLM 的多智能体系统（MAS）代码库。（1）MASLab 整合了多个领域的20多种已建立的方法，每种方法都通过逐步输出与官方实现进行严格验证。（2）MASLab 统一了从数据预处理到评估的整个流程，确保所有非算法因素都很好地对齐，以便进行公平比较。（3）MASLab 在共享的精简结构中实现方法，降低进入门槛并简化二次开发。涵盖10多个基准和8个 LLM 的广泛实验全面展示了当前 MAS 方法的状态。我们还提供了一些分析，例如探索现有工作中不同评估协议的影响、计算和大小缩放特性。值得注意的是，我们证明了评估协议的差异可能导致性能排名的巨大变化，直接强调了此类统一代码库的重要性。MASLab 将继续发展，跟踪该领域的最新进展并纳入先进的基准，并欢迎更广泛的开源社区做出多样化的贡献。

参考文献

[1] OpenAI. Gpt-4 技术报告。arXiv 预印本 arXiv:2303.08774, 2023.
[2] Anthropic. Claude 3.5 sonnet. https://www.anthropic.com/news/claude-3-5-sonnet, 2024. 访问日期: 2025-01-22.
[3] Guo Daya, Yang Dejian, Zhang Haowei, Song Junxiao, Zhang Ruoyu, Xu Runxin, Zhu Qihao, Ma Shirong, Wang Peiyi, Bi Xiao, et al. Deepseek-r1: 通过强化学习激励 LLM 的推理能力。arXiv 预印本 arXiv:2501.12948, 2025.
[4] Dubey Abhimanyu, Jauhri Abhinav, Pandey Abhinav, Kadian Abhishek, Al-Dahle Ahmad, Letman Aiesha, Mathur Akhil, Schelten Alan, Yang Amy, Fan Angela, et al. Llama 3 模型群。arXiv 预印本 arXiv:2407.21783, 2024.
[5] Yang An, Yang Baosong, Zhang Beichen, Hui Binyuan, Zheng Bo, Yu Bowen, Li Chengyuan, Liu Dayiheng, Huang Fei, Wei Haoran, et al. Qwen2.5 技术报告。arXiv 预印本 arXiv:2412.15115, 2024.
[6] Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde De Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, 等人。评估经过代码训练的大规模语言模型。arXiv 预印本 arXiv:2107.03374, 2021.
[7] Park Joon Sung, O’Brien Joseph, Cai Carrie Jun, Morris Meredith Ringel, Liang Percy, Bernstein Michael S. 生成型代理：人类行为的交互式模拟。在第36届年度ACM用户界面软件和技术研讨会论文集，第1-22页，2023年。
[8] Tu Tao, Azizi Shekoofeh, Driess Danny, Schaekermann Mike, Amin Mohamed, Chang Pi Chuan, Carroll Andrew, Lau Charles, Tanno Ryutaro, Ira Ktena, 等人。迈向通用生物医学人工智能。《新英格兰医学杂志·人工智能》，1(3):AIoa2300138, 2024.
[9] 武世杰, Irsoy Ozan, Lu Steven, Dabravolski Vadim, Dredze Mark, Gehrmann Sebastian, Kambadur Prabhanjan, Rosenberg David, 和 Mann Gideon. BloombergGPT: 用于金融领域的大型语言模型。arXiv 预印本 arXiv:2303.17564, 2023.
[10] 周乐欣, Schellaert Wout, Martínez-Plumed Fernando, Moros-Daval Yael, Ferri Cèsar, 和 Hernández-Orallo José. 更大且更易于指令的语言模型变得不那么可靠。《自然》，634(8032):61-68, 2024.
[11] Wolf Yotam, Wies Noam, Avnery Oshri, Levine Yoav, 和 Shashua Amnon. 大型语言模型对齐的基本局限性。在第41届国际机器学习会议论文集，第53079-53112页，2024.
[12] 张岳, 李亚夫, 崔磊阳, 蔡登, 刘乐茂, 付廷辰, 黄欣婷, 赵恩博, 张宇, 陈昱龙, 等人。人工智能海洋中的海妖之歌：大型语言模型幻觉的调查。arXiv 预印本 arXiv:2309.01219, 2023.
[13] Min Sewon, Krishna Kalpesh, Lyu Xinxi, Lewis Mike, Yih Wen-tau, Koh Pang, Iyyer Mohit, Zettlemoyer Luke, 和 Hajishirzi Hannaneh. FactScore: 长篇文本生成中事实精确度的细粒度原子评估。在2023年经验方法自然语言处理会议论文集，第12076-12100页，2023.
[14] Nouba Dziri, Ximing Lu, Melanie Sclar, Xiang Lorraine Li, Liwei Jiang, Bill Yuchen Lin, Sean Welleck, Peter West, Chandra Bhagavatula, Ronan Le Bras, 等人。信仰与命运：变压器在组合性上的限制。神经信息处理系统进展，36:70293-70332, 2023.
[15] Muhammad Usman Hadi, Rizwan Qureshi, Abbas Shah, Muhammad Irfan, Anas Zafar, Muhammad Bilal Shaikh, Naveed Akhtar, Jia Wu, Seyedali Mirjalili, 等人。大型语言模型：其应用、挑战、局限性和未来前景的全面调查。Authorea 预印本，2023.
[16] 钱晨, 刘伟, 刘宏章, 陈诺, 当玉凡, 李佳豪, 杨成, 陈威泽, 苏雨生, 丛昕, 等人。ChatDev: 软件开发的通信代理。在计算语言学协会第62届年会论文集（长文部分），第 $15174 - 15186$ 页, 2024.
[17] 李国浩, Hammoud Hasan, Itani Hani, Khizbullin Dmitrii, 和 Ghanem Bernard. Camel: 用于探索大规模语言模型社会心智的通信代理。神经信息处理系统进展，36:51991-52008, 2023.
[18] 胡盛然, 卢聪, 和 Clune Jeff. 自动设计智能体系统。在第十三届国际学习表示会议，2025.
[19] 叶锐, 唐硕, 葛睿, 杜雅欣, 尹振飞, 邵婧, 和陈思恒. MAS-GPT: 训练LLM以构建基于LLM的多智能体系统。在大规模语言模型推理和规划研讨会，2025.
[20] 洪思蕊, 祝葛明辰, 陈宗, 郑霞吾, 程昱恒, 王锦林, 张策尧, 王子健, 虞史蒂文卡, 林子娟, 等人. MetaGPT: 多智能体协作框架的元编程。在第十二届国际学习表示会议，2024.
[21] 雷斌, 张毅, 左山, Payani Ali, 和丁蔡文. MACM: 利用多智能体系统解决复杂数学问题中的条件挖掘。在第三十八届年度神经信息处理系统会议论文集，2024.
[22] Imami Shima, 杜亮, 和 Harsh Shrivastava. MathPrompter: 使用大规模语言模型进行数学推理。在计算语言学协会第六十一届年会论文集（工业轨道部分），第37-42页，2023.
[23] Chris Lu, Cong Lu, Robert Tjarko Lange, Jakob Foerster, Jeff Clune, 和 David Ha. 人工智能科学家：迈向全自动开放式的科学发现。arXiv 预印本 arXiv:2408.06292, 2024.
[24] Samuel Schmidgall, 苏雨生, 王泽, 孙西蒙, 吴嘉廉, 余晓东, 刘江, 刘建, 柳子诚, 和 Barsoum Emad. 智能体实验室：使用LLM智能体作为研究助手。arXiv 预印本 arXiv:2501.04227, 2025.
[25] 庞乡河, 唐硕, 叶锐, 熊宇欣, 张伯伦, 王彦峰, 和陈思恒. 通过垄断对话模拟社交场景实现大型语言模型的自对齐。在国际机器学习会议论文集，第39416-39447页。PMLR, 2024.
[26] 唐硕, 庞乡河, 刘泽溪, 汤博涵, 叶锐, 金天, 董晓文, 王彦峰, 和陈思恒. 通过多智能体模拟合成后训练数据给LLM。arXiv 预印本 arXiv:2410.14251, 2024.
[27] 杜一伦, 李爽, Torralba Antonio, Tenenbaum Joshua B, 和 Mordatch Igor. 通过多智能体辩论改进语言模型的事实性和推理能力。在第四十一届国际机器学习会议，2024.
[28] 梁天, 何志伟, 姜文祥, 王星, 王岩, 王睿, 杨钰玖, 施水才, 和屠兆鹏. 通过多智能体辩论鼓励大型语言模型的发散思维。在 Yaser Al-Onaizan, Mohit Bansal, 和 Yun-Nung Chen 编辑的2024年经验方法自然语言处理会议论文集，第17889-17904页，佛罗里达州迈阿密，2024年11月。计算语言学协会。
[29] 陈为泽, 苏雨生, 左晶伟, 杨成, 袁晨飞, 陈智民, 陈嘿杨, 卢雅曦, 吕伊欣, Hung Yi-Hsin, 钱晨, 等人. AgentVerse: 促进多智能体协作和探索涌现行为。在第十二届国际学习表示会议，2024.
[30] 张佳怡, 向金宇, 余昭阳, 滕凤伟, 陈雄辉, 陈家琪, 祝明明, 程心, 洪思蕊, 王锦林, 郑冰楠, 刘邦, 罗羽雨, 和吴成林. AFlow: 自动化智能体工作流生成。在第十三届国际学习表示会议，2025.
[31] 刘子军, 张延哲, 李鹏, 刘洋, 和杨迪一. 动态LLM驱动的智能体网络用于任务导向的智能体协作。在首届语言建模会议，2024.
[32] 祝明明辰, 王文轶, Louis Kirsch, Francesco Faccio, Dmitrii Khizbullin, 和 Jürgen Schmidhuber. GptSwarm: 作为可优化图的语言智能体。在第四十一届国际机器学习会议，2024.
[33] Jason Wei, Wang Xuezhi, Schuurmans Dale, Bosma Maarten, Xia Fei, Chi Ed, Le Quoc V, Zhou Denny, 等人. 链式提示法激发大规模语言模型中的推理能力。神经信息处理系统进展，35:24824-24837, 2022.
[34] 吴清云, Bansal Gagan, 张洁玉, 吴逸然, 李北宾, Zhu Erkang, 姜莉, 张晓云, 张少坤, 刘嘉乐, 等人. AutoGen: 通过多智能体对话启用下一代LLM应用。在ICLR 2024 Workshop on Large Language Model (LLM) Agents, 2024.
[35] Wang Xuezhi, Jason Wei, Dale Schuurmans, Le Quoc V, Chi Ed H, Narang Sharan, Chowdhery Aakanksha, 和 Zhou Denny. 自我一致性改进了语言模型中的链式推理。在第十一届国际学习表示会议，2024.
[36] Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Gao Luyu, Wiegreffe Sarah, Uri Alon, Dziri Nouha, Prabhumoye Shrimai, Yang Yiming, 等人. 自我改进：迭代自我反馈改进。神经信息处理系统进展，36, 2024.
[37] 钱晨, 谢子豪, 王一菲, 刘卫, 朱昆仑, 夏韩臣, 当玉凡, 杜卓芸, 陈韦泽, 杨成, 刘知远, 和孙茂松. 扩展基于大型语言模型的多智能体协作。在第十三届国际学习表示会议，2025.
[38] Shalev Lifshitz, McIlraith Sheila A., 和 Du Yilun. 多智能体验证：通过目标验证者扩展测试时计算。在大规模语言模型推理和规划研讨会，2025.
[39] Md Ashraful Islam, Mohammed Eunus Ali, 和 Md Rizwan Parvez. MapCoder: 多智能体代码生成用于竞争性问题解决。在计算语言学协会第六十二届年会论文集（长文部分），第4912-4944页，2024.
[40] 胡悦, 蔡玉珠, 杜雅欣, 朱鑫宇, 刘向瑞, 余子杰, 侯宇辰, 唐硕, 和陈思恒. 自进化多智能体网络用于软件开发。在第十三届国际学习表示会议，2025.
[41] 唐相儒, Zou Anni, 张卓盛, 李子鸣, 赵一伦, 张兴瑶, Cohan Arman, 和 Gerstein Mark. MedAgents: 大型语言模型作为零样本医疗推理的合作者。在计算语言学协会2024年发现论文集，第599-621页，2024.
[42] 胡梦康, 周宇航, 范文东, 倪玉舟, 夏博文, 孙涛, 叶子禹, 金钊轩, 李莹如, 张泽宇, 王一峰, 叶千树, 罗平, 和李国浩. OWL: 实现实时任务自动化的通用多智能体协助的优化劳动力学习，2025.
[43] Yao Shunyu, Zhao Jeffrey, Yu Dian, Du Nan, Shafran Izhak, Narasimhan Karthik R, 和 Cao Yuan. React: 在语言模型中协同推理和行动。在第十一届国际学习表示会议，2023.
[44] Subramaniam Vighnesh, Du Yilun, Tenenbaum Joshua B, Torralba Antonio, Li Shuang, 和 Mordatch Igor. 多智能体微调：通过多样推理链实现自我改进。在第十三届国际学习表示会议，2025.
[45] 张贵斌, 岳彦伟, 孙翔国, 万观城, 喻苗, 方俊锋, 王昆, 陈天龙, 和程大伟. G-Designer: 通过图神经网络架构多智能体通信拓扑。arXiv 预印本 arXiv:2410.11782, 2024.
[46] 张贵斌, 岳彦伟, 李志勋, Yun Sukwon, 万观城, 王昆, 程大伟, Jeffrey Xu Yu, 和陈天龙. 剪掉废话：经济型基于LLM的多智能体系统通信管道。在第十三届国际学习表示会议，2025.
[47] 张远烁, 侯宇辰, 汤博涵, 陈硕, 张穆汉, 董晓文, 和陈思恒. 作为智能体工作流性能预测器的图神经网络。arXiv 预印本 arXiv:2503.11301, 2025.
[48] LangChain. Langchain. https://www.langchain.com/langchain, 2025. 访问日期: 2025-05-09.
[49] LangGraph. Langgraph. https://www.langchain.com/langgraph, 2025. 访问日期: 2025-05-09.
[50] 谢添宝, 周帆, 程周军, 石鹏, 翁洛璇, 刘义涛, Toh Jing Hua, 赵俊宁, 刘倩, 刘驰, 刘泽宇, 徐义恒, 苏洪进, Shin Dongchan, 熊彩明, 和俞涛. OpenAgents: 野生语言智能体的开放平台。在首届语言建模会议，2024.
[51] Noah Shinn, Cassano Federico, Gopinath Ashwin, Narasimhan Karthik, 和 Yao Shunyu. Reflexion: 具有语言强化学习的智能体。神经信息处理系统进展，36:8634-8652, 2023.
[52] 字节跳动. Sandbox Fusion: 适用于LLM的多功能代码沙箱。https://bytedance.github.io/SandboxFusion/, 2025. 访问日期: 2025-05-09.
[53] Anthropic. 引入模型上下文协议。https://www.anthropic.com/news/model-context-protocol, 2025. 访问日期: 2025-05-09.
[54] 陈顶, 余庆辰, 王鹏源, 张文涛, 汤波, 熊飞宇, 李新池, 杨敏川, 和李志宇. xVerify: 高效的推理模型评估答案验证器。arXiv 预印本 arXiv:2504.10481, 2025.
[55] Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Song, 和 Jacob Steinhardt. 用数学数据集衡量数学问题解决能力。NeurIPS, 2021.
[56] 杨安, 杨葆松, 张贝辰, 许彬远, 郑博, 余博文, 李成远, 刘岱行亨, 黄飞, 魏浩然, 林欢, 杨建, 屠建红, 张建伟, 杨建新, 杨家曦, 周静仁, 林俊洋, dang凯, Lu Keming, 包克勤, 杨科欣, 李天浩, 余乐, 李梅, 学明锋, 张培, 祝秦, 门睿, 林润基, 李天浩, Ren兴章任, 夏廷宇, 任行张, 任轩, Fan阳, Su阳, 张亦昌, 刘宇, 刘玉琼, 崔泽宇, 张镇如, 和秋子涵. Qwen2.5 技术报告。arXiv 预印本 arXiv:2412.15115, 2024.
[57] OpenAI. GPT-4o mini: 推进成本高效智能。https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/, 2024. 访问日期: 2025-01-23.
[58] OpenAI. 你好 GPT-4o. https://openai.com/index/hello-gpt-4o/, 2024. 访问日期: 2025-01-23.
[59] OpenAI. 在 API 中引入 GPT-4.1. https://openai.com/index/gpt-4-1/, 2025. 访问日期: 2025-05-09.
[60] 高璐雨, Madaan Aman, 周淑燕, Alon Uri, Liu Pengfei, Yang Yiming, Callan Jamie, 和 Neubig Graham. PAL: 程序辅助语言模型。在国际机器学习会议论文集，第10764-10799页。PMLR, 2023.
[61] Ling Wang, Yogatama Dani, Dyer Chris, 和 Blunsom Phil. 通过理由生成进行程序归纳：学习解决和解释代数文字问题。在计算语言学协会第五十五届年会论文集（长文部分），第158-167页，2017.
[62] 王晓萱, 胡梓牛, 目录潘, 朱燕乔, Zhang Jieyu, Subramaniam Satyen, Loomba Arjun R, 张世昌, 孙义舟, 和王伟. SciBench: 评估大型语言模型在大学水平科学问题解决能力的基准。在第四十一届国际机器学习会议，2024.
[63] David Rein, Hou Betty Li, Stickland Asa Cooper, Petty Jackson, Pang Richard Yuanzhe, Dirani Julien, Michael Julian, 和 Bowman Samuel R. GPQA: 一个研究生级别的 Google-proof Q&A 基准。arXiv 预印本 arXiv:2311.12022, 2023.
[64] 王宇博, 马雪光, 张哥, 倪元升, 昌德拉 Abhranil, 郭世昌, 任魏明, He Xuan, 江子言, 李天乐, 库 Max, 王凯, Zhuang Alex, 范荣奇, 岳祥月, 和陈文虎. MMLU-pro: 更加稳健和具有挑战性的多任务语言理解基准。在第三十八界神经信息处理系统大会数据集和基准赛道，2024.
[65] 安基特 Pal, Logesh Kumar Umapathi, 和 Malaikannan Sankarasubbu. MedMCQA: 一个大规模多学科多选题数据集，用于医学领域问答。在健康、推断和学习会议论文集，第248-260页。PMLR, 2022.
[66] Mark Chen, Tworek Jerry, Jun Heewoo, Yuan Qiming, Henrique Ponde De Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, 等人. 评估经过代码训练的大规模语言模型。arXiv 预印本 arXiv:2107.03374, 2021.
[67] Jacob Austin, Augustus Odena, Maxwell Nye, Maarten Bosma, Henryk Michalewski, David Dohan, Ellen Jiang, Carrie Cai, Michael Terry, Quoc Le, 等人. 使用大规模语言模型进行程序合成。arXiv 预印本 arXiv:2108.07732, 2021.
[68] Grégoire Mialon, Fourrier Clémentine, Wolf Thomas, LeCun Yann, 和 Scialom Thomas. GAIA: 一个通用 AI 助手的基准。在第十二届国际学习表示会议，2024.
[69] Kwon Woosuk, Li Zhuohan, Zhuang Siyuan, Sheng Ying, Zheng Lianmin, Yu Cody Hao, Gonzalez Joseph, Zhang Hao, 和 Stoica Ion. 使用分页注意力机制高效管理大规模语言模型服务的内存。在第二十九届操作系统原理研讨会论文集，第611-626页，2023.

协议	LLM-2步	LLM-xVerify	规则-HF	规则-DyLAN	规则-Hendry.
准确率	98.59	98.35	41.65	65.65	27.29

表4：通过人工检查比较5种不同评估协议的准确性。此测量基于MATH数据集。两种基于LLM的评估协议与人类评估的一致性显著更高。LLM-2步基于Llama-3.3-70B-Instruct的两次推理，而LLM-xVerify基于一次推理的9B大小的LLM。总体而言，LLM-xVerify实现了最佳的效果-效率权衡。

方法	第1级		第2级		第3级		全部
	准确率	成本	准确率	成本	准确率	成本	准确率	成本
GPT-4.1-mini
单智能体	16.98	663	16.28	353	0.0	1529	13.94	638
自我一致性	22.64	4504	15.12	2412	0.0	8484	15.15	4041
辩论	24.53	4388	16.28	4870	7.69	12972	17.58	5992
AgentVerse	32.08	7174	15.12	7368	7.69	15753	19.39	8627
OWL-角色扮演	35.85	51543	25.58	58881	11.54	107635	26.67	64206
ReAct-MASLab	33.96	19866	26.74	41768	11.54	55743	26.67	36935
GPT-4.1
单智能体	24.53	394	16.28	470	3.85	1378	16.97	589
自我一致性	20.75	3037	16.28	3362	11.54	11786	16.97	4585
辩论	32.08	4103	24.42	4339	11.54	11564	24.85	5402
AgentVerse	28.30	6876	18.60	5995	3.85	11034	19.39	7072
OWL-角色扮演	43.40	48073	30.23	101827	26.92	101986	33.94	84586
ReAct-MASLab	56.60	18278	47.67	35636	19.23	43525	46.06	31303

表5：在GAIA上的性能和成本比较。性能通过准确率评估，成本通过每查询消耗的文本标记数量评估。

A 局限性

尽管是基于LLM的MAS中最全面的代码库，仍然有一些方法尚未被纳入。其次，尽管本文中的大多数基准在MAS文献中常用，但它们并不是专门为MAS领域设计的。然而，这不是本文的独特局限性。我们将继续在这个代码库上工作，以支持更多的方法和基准。我们还计划设计新的专门针对MAS的基准。

B 更广泛的影响

本文介绍了一个统一、全面且研究友好的基于LLM的MAS社区代码库。这一资源减轻了研究人员重复生产的负担，使他们能够将更多精力投入到创新算法设计上。它促进了研究之间的公平比较，降低了新手的进入门槛，并促进了二次开发，从而加速了该领域的发展。
虽然我们的方法潜在的负面影响类似于与大规模语言模型相关的那些——例如伦理问题和滥用风险——这些问题本质上与LLM使用相关，无需在此进一步阐述。

运行	优化			推理
	优化器成本	执行器成本	验证准确率	测试准确率	成本
MASLab	$0.58251 $$	19.05964$	54.52	65.20	$1.489 $$
官方	-	19.52409$	53.27	65.06	2.231$

表6：我们的AFlow [30]实现与官方版本的比较。优化器为Claude-3.5-Sonnet，执行器为GPT-4o-mini。官方代码未记录优化器成本。此表验证了我们重新实现的有效性。

图11：九种MAS方法在10个基准上的性能和成本权衡检查。

C 实现细节

C. 1 计算资源

对于开源LLM，我们利用vLLM [69]库启动LLM服务。对于32B-、70B-和72B大小的LLM，我们使用4个NVIDIA A100 GPU；对于14B大小的LLM，我们使用2个NVIDIA A100 GPU；对于7B大小的LLM，我们使用1个NVIDIA A100 GPU。

C. 2 GAIA

GAIA 是一个针对通用 AI 助手的具有挑战性的基准。在我们的实验中，我们使用了 GAIA 的验证集，其中包含总共 165 个样本，分为三个难度级别。它要求 MAS 进行多轮协作以解决任务。OWL-Roleplaying 和 React-MASLab 方法在每个任务中最多限制为 12 轮。
工具包。所有方法共享一套公共工具包，包括网络交互工具、文档处理工具、视频分析工具、音频分析工具、代码执行工具、图像分析工具、搜索工具和 Excel 工具。这些工具中的一些结合了多模态大规模语言模型。除了音频分析工具外，所有这些工具都使用与主实验流程中配置相同的模型版本。网络交互工具使用 Playwright 库
来模拟浏览器行为。然而，我们在实验中观察到偶尔的不稳定情况。为了减少运行时间和标记消耗，我们施加了严格的操作约束：网站导航的超时时间为 30,000 毫秒，页面加载的超时时间为 $\mathrm{~ms}$ ，并且每个任务的网络交互回合数上限为 10。超过此限制的任务会被强制终止。文档处理工具支持解析各种文档格式。特别是对于网络内容提取和解析，我们使用了一个名为 Firecrawl 的外部工具。视频分析工具从每个视频中提取 28 个均匀间隔的帧，并使用 OpenAI 的 Whisper-1 模型将音频转录为文本。这些帧和转录的文本一起输入到视觉-语言模型中进行多模态分析。音频分析工具通过将音频文件编码为 Base64 格式并将其输入到 GPT-4o-mini-audio-preview 模型中进行分析。代码执行工具通过生成一个子进程来模拟在沙盒环境中编写和执行 Python 代码。搜索工具集成了多个检索后端，如 Google、DuckDuckGo、Wikipedia 和 Archive.org，允许代理从多种来源收集信息。

内存。我们简化了模型的存储和检索内存的过程。为了在内存检索期间平衡性能和标记效率，我们对检索内容的最大长度设置了 51,200 个标记的上限。同样，我们对模型输出的最大标记长度设定了 12,800 个标记的上限。

失败分析。在整个实验过程中，我们记录了 MAS 输出和失败案例。实验结束后，我们选择了运行在 GPT-4.1 模型上的 OWL-Roleplaying 方法的结果，并对遇到的错误进行了详细的分类和统计分析。

D 重新实现说明

D. 1 通用任务的 MAS

AutoGen [34]。基于 AutoGen [34] 文章中提出的示例和其官方文档（https://microsoft.github.io/autogen/0.2/）中提供的指南，我们开发了一个体现其对话特征的基础工作流程，专为解决基本文本级问题而定制，包括代码执行和记忆保留。
AgentVerse [29]。AgentVerse 提供了几种特定于数据集的版本，包括 MGSM 和 HumanEval。我们复制了与 HumanEval 和 MGSM 数据集对应的工作流程，与原始 AgentVerse 存储库（https://github. com/OpenBMB/AgentVerse）及其论文中呈现的工作流程一致。此外，我们还开发了一个通用工作流程，可以解决常见问题。
LLM-Debate [27]。我们注意到官方代码 https://github.com/ composable-models/llm_multiagent_debate 不易直接执行，并且代码依赖于字符串操作从响应中提取答案，这经常导致错误。因此，我们稍微修改了代码，使其无错误，并依赖 LLM 来汇总最终答案。这显著提高了 LLM-Debate 的性能，因为它在执行过程中不再遇到错误。
GPTSwarm [32]。官方代码 GPTSwarm https://github.com/metauto-ai/ GPTSwarm/tree/main/experiments 包含 MMLU、HumanEval、GAIA、Crosswords 的版本。我们实现了 HumanEval 和 MMLU 的版本，并基于 MMLU 的逻辑开发了一个通用问题解决的版本。
DyLAN [31]。官方代码 https://github.com/SALT-NLP/DyLAN 使用自定义的答案提取函数返回最终的数学结果。为了确保在评估协议中进行公平比较，我们在保留原始实现中定义的任务特定初始化参数的同时，修改了原始代码的返回逻辑。
Self-Refine [36]。官方实现 https://github.com/madaan/self-refine 提供了特定于数据集的提示示例。遵循其解决数学问题的逻辑，我们开发了通用问题解决的代码。此外，由于原始代码中数学问题的提取逻辑不够健壮，经常导致语法错误的代码，我们重新设计了提取函数，以便更有效地从原始 LLM 响应中提取可执行代码。
MacNet [37]。我们在重现 MacNet 时简化了 https://github.com/OpenBMB/ ChatDev/tree/macnet 中的 waiting.py 结构，但保持其功能一致，主要体现在高可维护性和内存安全性方面。此外，我们根据其 SRDD 实现开发了一个通用版本。

Reflexion [51]。对于 https://github.com/noahshinn/reflexion 中的方法，我们实现了 HumanEval 和 MBPP 编程任务模式。此外，基于编程任务的逻辑，我们开发了一个通用问题解决版本。
ADAS [18]。我们注意到 https://github.com/ShengranHu/ADAS 的官方代码不支持灵活选择执行模型，这使得难以评估 MAS 模块的效果以及开发异构 MAS 版本。因此，我们稍作修改代码以修复现有 bug，并允许用户在优化期间指定元 LLM 和执行 LLM，以及在推理期间选择执行模型。我们还将温度设置为零，并确保在使用 GPT-3.5 作为执行模型时（与原始仓库相同），输出保持完全一致。这些改进显著增强了 ADAS 的兼容性和可扩展性。

AFlow [30]。官方代码 https://github.com/FoundationAgents/MetaGPT/tree/ main/examples/aflow 和 https://github.com/FoundationAgents/AFlow 非常复杂甚至存在 bug，我们简化了格式并确保核心部分完全对齐且无 bug。此外，在重现 AFlow 时我们使用 AsyncOpenAI 来加速优化。
MAV [38]。我们重现了 MAV 的 MATH 和 MMLU 版本，并基于 MATH 版本开发了一个通用版本。

D. 2 编码任务的 MAS

MetaGPT [20]。MetaGPT 是一个复杂的系统，对其进行分析是一个相当大的挑战。我们的研究表明，其通信基础设施对整个系统的有效性可以忽略不计，其实际影响仅限于小型项目。为了便于理解，我们将其简化为线性框架，并与原论文的结构保持一致。实际上，我们发现现有结构无法应用于 HumanEval 和 MBPP 等数据集。

ChatDev [16]。ChatDev 主要专注于软件开发领域。通过利用自然语言处理技术，ChatDev 能够实现整个软件开发生命周期的无缝自动化，包括 GUI（图形用户界面）的生成。生成软件的复杂性与用户定义需求的具体性密切相关。基于官方 ChatDev 论文 ([16]) 及其官方存储库 (https://github.com/OpenBMB/ ChatDev)，我们在 MAS-Lab 框架内适配了一个针对 SRDD（软件需求描述数据集）的 ChatDev 工作流程，与原始 ChatDev 系统展示的设计原则和功能保持一致。
MapCoder [39]。我们的实现遵循官方代码库 https://github.com/ Md-Ashraful-Pramanik/MapCoder，保留其核心方法论。然而，我们注意到原始实现使用了预处理版本的 HumanEval 数据集，其中包括示例测试用例。为了确保不同方法之间的公平比较，我们未使用此预处理版本。相反，我们增强了框架，添加了一个函数，能够从原始 HumanEval 提示中动态提取测试用例。这一修改不影响 MapCoder 的核心逻辑，但确保所有基线在相同条件下进行评估。
EvoMAC [40]。我们与 EvoMAC 的作者合作，他们提供了官方实现以集成到我们的框架中。该方法保持不变。与作者一起，我们将这一联合实现作为我们开源框架的一部分发布，保持完全透明和可重复性。

D. 3 数学任务的 MAS

MACM [21]。MACM 是一种专门用于使用代码解释器工具解决数学问题的多智能体系统方法。由于其官方代码是专门为 OpenAI 的 Assistants 接口设计的，我们遵循相同的 LLM 使用方式来处理这种情况。在未来，我们计划扩展它以支持 OpenAI 的聊天模式。

D. 4 科学任务的 MAS

MedAgents [41]。官方代码 https://github.com/gersteinlab/MedAgents 支持多种工作模式。我们全面重现了所有模式，并将默认模式设置为与原始存储库的默认配置相匹配，保持所有其他外部参数与原始默认值一致。

D. 5 需要工具的任务的 MAS

OWL-Roleplaying [42]。OWL（https://github.com/camel-ai/owl）是一个多智能体协作框架。该框架包括 OWL-Roleplaying，这是一种专门为 GAIA 基准 [68] 设计的多智能体系统方法。此框架可能为每个特定任务/查询引入大量标记消耗。考虑到我们 MASLab 框架的研究友好性质，在将这种方法适应到 MASLab 时进行了若干权衡和简化，重点在于增强代码可读性和减少计算成本。总体而言，在适应过程中维持了 OWL 的主要过程，同时我们限制了最大重试次数以考虑经济性。例如，我们对网络工具的使用设置了更严格的限制，以减轻频繁网络交互带来的大量标记成本。

ReAct-MASLab [43]。基于 OWL 的工具包，我们提出了一种受 ReAct [43] 方法启发的方法 ReAct-MASLab。该方法在较低成本下实现了更好的性能，相较于 OWL-Roleplaying。

参考论文：https://arxiv.org/pdf/2505.16988