四种多Agent范式哪种最好？用于对话任务解决的多代理大型语言模型 Multi-Agent Large Language Models for Conversational Task-Solving

本文链接：https://blog.csdn.net/qq_29868553/article/details/144518361

在这里插入图片描述

原文地址

摘要

在单个大型语言模型多年来主宰人工智能领域的时代，多智能体系统在对话任务解决中崭露头角。此前的研究虽已展现出其在推理任务和创新尝试方面的潜力，但对于其在对话范式方面的局限以及个体智能体的影响，却缺乏分析。多智能体讨论在不同复杂程度任务中的表现怎样，以及这些对话的结构如何影响进程，都尚不明确。为填补这一空缺，本工作对各种讨论范式下的多智能体系统进行了系统评估，衡量了它们在生成任务和问答任务中的优劣。除实验外，我提出了 2022 至 2024 年 20 项多智能体研究的分类法，接着介绍了在对话任务解决中部署多智能体 LLM 的框架。我证实，尽管多智能体系统在复杂推理任务中表现卓越，凭借专家角色胜过单个模型，但在基础任务上却不尽人意。具体而言，我指出了三个出现的挑战：1）虽然更长的讨论能增强推理能力，但智能体无法始终符合严格的任务要求，从而导致问题偏移，使得较短的对话对基础任务更有效。2）长时间的讨论存在对齐崩溃的风险，给这些系统带来新的安全隐患。3）我展示了通过长时间生成造成的讨论垄断，给诸如总结之类的任务带来了决策公平性的问题。此项工作揭示了多智能体交互和不同对话范式所带来的潜力与挑战，为未来研究如何提升多智能体 LLM 的效率、性能和安全性提供了思路。

1 Introduction

由于文本生成人工智能（AI）的最新进展，单一大型语言模型（LLM）主导了众多任务，例如问答（QA）[26]、创意写作[18]和代码生成[25]。如今，LLM在解决问题方面取得了出色的表现，这要归功于他们捕捉语言特征、跨任务和领域进行概括以及生成连贯文本的能力[3,37,68]。这导致 ChatGPT1、Gemini [57] 和 GitHub Copilot2 等应用程序最近越来越受欢迎。随着不断的增长和公众的关注，单一的LLM系统在人工智能爱好者之外的社区中得到了广泛的采用。然而，受欢迎程度的上升和学术界的集中关注也揭示了这些系统的局限性。

单一LLM面临多种问题，例如偏见[52]、对非事实陈述的过度自信[24]、可解释性问题[49]，以及不提供解决更复杂任务所需的多方面推理[15]。值得注意的是，人类很少自己解决复杂的任务。当我们无法独立实现目标时，我们可以咨询其他更有资格的人，他们可以就部分任务提供建议或帮助。因此，人类从与同类的建设性交流中受益匪浅，尤其是在涉及复杂的计划或推理时。人类对话的这些动态现在引起了研究人员的注意，希望能够减轻单一LLM的局限性。

在这里插入图片描述

图 1. MALLM 的表面视图：多代理大型语言模型，与单个模型的思想链 [64] 进行比较。 MALLM 包含三个主要组件：自动角色分配、协作讨论和决策。更多技术概述如图 3 所示。

受社会选择理论[10]的启发，最近的研究考虑使用多个LLM来减轻单一模型的局限性并解决更复杂的任务[5,51,71]。这些LLM被称为代理，在协作讨论或对话中模拟人类互动。多个代理可以配备不同的专业知识或偏好，从而增强单个 LLM 的讨论和系统响应 [5, 51]。在定义轮流的固定通信方案下，可以提示代理讨论问题的潜在解决方案[71]。决策机制检查代理之间的协议，产生优于单一模型的最终输出。一般来说，多代理LLM是一个考虑代理、讨论和决策以对话式解决问题的概念。

如今，多智能体系统已经通过简单的通信方案进行富有成效的讨论，以提高单个LLM在推理繁重任务上的性能[5,51,71]。它们用于模拟社交互动[43]，可以提高他们在对话场景中解决问题的能力[5,51,71]。这有几个好处。首先，代理可以通过单个 LLM 提高系统对推理任务的响应 [5,51,71]。其次，每个代理人的不同观点可以减轻响应中的偏见[69]。第三，基于反馈的话语会产生一种自我反思机制，减少幻觉内容 [9, 53]。第四，多智能体讨论通过在智能体之间提供富有洞察力的讨论日志来解决LLM的黑匣子问题。最后，新颖的多智能体系统为解决单一模型无法解决的固有多智能体任务（如心理理论 [32]）奠定了基础。

考虑到多主体研究的最新进展[54,67,74]，对于哪些主体、讨论格式和其他特征影响讨论的过程和结果仍然缺乏了解。具体来说，尚不清楚是否存在普遍良好的讨论格式，或者这些格式是否取决于下游任务。研究还遗漏了关于个体代理如何通过其专业知识或生成的代币影响讨论结果的研究。目前尚不清楚哪些特征构成了多智能体系统的优点和缺点。因此，需要进行全面的研究来量化多智能体LLM的局限性，为这些系统的未来改进提供明确的基础。

在这项工作中，我提出了一个名为 MALLM（多代理LLM）的框架，它模拟人类交互以对话式解决问题。使用 MALLM，我探索多智能体讨论的内在特征，以测试生成任务（即摘要、翻译、释义类型生成）和 QA 任务（多选道德 QA、多选战略 QA、提取 QA）作为基准。我评估多智能体讨论如何展开，研究它们的融合、单个智能体的影响和对话范式。通过考虑词汇多样性和问题可回答性等与话语相关的特征，我对多代理LLM的机会和局限性有了进一步的见解。

更具体地说，我探讨了以下研究问题：
哪些讨论范式比单一LLM更有效？
(1) 讨论范式的表现是否依赖于任务？
(2) 讨论的内部沟通结构有多重要？
(3) 多智能体系统与思想链提示相比如何？

多智能体讨论期间哪些因素影响任务绩效？
（1）讨论的长度对任务绩效有影响吗？
(2) 人物角色如何影响讨论和结果？
(3) 代理响应的长度与角色和结构有何关系？

LLM代理之间的讨论有什么特点？
(1) 多主体LLM和单LLM之间的词汇多样性是否存在差异？
(2) 多代理人LLM在识别无法回答的问题方面是否比单一LLM更有效？
(3)多主体LLM如何讨论特别困难的例子？

我的研究得出了一套全面的发现。我发现，虽然多智能体系统可以提高推理能力和道德一致性，但它们在翻译等基本生成任务上表现较差，这凸显出具有思想链（CoT）[64]的单一LLM通常足以解决任务令人满意。因此，多主体LLM对于解决复杂问题似乎特别有前景。结果表明，大多数代理如何在讨论中快速达成一致，通常在前两轮内达成共识。值得注意的是，我表明代理会更长时间地讨论更困难的示例，这突显了这些系统如何适应问题的复杂性。我的工作强调了保持多智能体讨论简短的必要性，因为在除战略 QA 之外的所有任务的较长讨论中，性能都会下降，战略 QA 可以利用额外的推理步骤。我解释了多智能体LLM的问题漂移，这是一种对话现象，当讨论过长且智能体无法保持严格的任务要求时，可能会损害翻译等基本任务的性能。有趣的是，具有信息限制的讨论范式会导致讨论收敛得更慢，同时实现相似的性能。因此，通常优选所有代理之间完全透明以减少计算。我的研究表明，当智能体讨论较长时间时，就会发生对齐崩溃，引发人们对多智能体系统的毒性和人工智能安全性的担忧。我还量化了多主体辩论中专家角色的影响。具体来说，我表明专家对于解决道德 QA 或战略 QA 等复杂任务至关重要，并强调具有不同偏好的角色如何丰富多智能体交互。结果表明，在对话范式和完整信息访问中发挥核心作用的代理在生成任务上生成更多令牌，但在多项选择和提取式 QA 任务上则不然。我展示了贡献较长文本的代理如何对对话产生更强烈的影响，垄断讨论并以不平衡的方式影响决策。总而言之，主要发现如下：

多智能体讨论改进了 CoT 的推理，但在翻译等基本任务上表现不佳。
专家角色有助于复杂的任务，例如战略质量保证和道德质量保证。
代理们会更长时间地讨论困难的示例，直到达成共识，并根据问题的复杂性进行调整。
较长的讨论会导致问题偏离，从而使简短的讨论更加有效，除非任务很复杂。
多主体讨论的道德一致性在较长时间的对话中崩溃。
拥有更多信息的智能体为生成任务贡献更多文本，而较长的个人响应可能会垄断讨论，特别是在总结等任务中。

本质上，我做出了以下主要贡献：

我提出了一个模块化框架，可以控制代理、讨论格式和决策，以促进有关多代理LLM的复杂研究。
我提供了有关多代理系统在哪些方面比单一LLM表现更好以及在哪些情况下会失败的重要见解。
我研究了多主体讨论的过程并阐明了讨论形式的影响。
我量化各个座席对对话的影响，考虑角色和响应长度。

2 Related Work

自从第一个聊天机器人出现以来，人类就一直着迷于让文本生成模型以类似人类的方式进行交流。作为对该想法的首次探索，两个名为 ELIZA 和 PARRY 的程序在治疗师和患者之间进行了对话3。关于LLM [40] 能力的最新进展导致关于多智能体系统的研究数量不断增加。各种工作通过单个LLM的特定提示方法探索了类似代理设置的潜力[63, 67]。王等人。 [63]提示单个LLM代表不同的领域专家（称为角色）来模拟讨论。在LLM中引入多个细粒度的角色可以提高他们在创意写作和逻辑网格难题等任务上的表现。通过这种方法，讨论更多的是在同一输出中利用的概念，只需要由单个LLM进行计算。像自我一致性[61]这样的自我纠正机制承认这样一个事实：复杂的问题通常允许多种可能的解决方法。因此，由于温度或模型参数的其他变化，多次处理查询可能会产生不同的输出。通过在一组可能的解决方案中选择最一致的答案来聚合所有答案，然后产生更准确的响应。希克等人。 [46]表明解决方案的重复处理和迭代改进可以有利于创意写作。

思想交流[71]结合了代理提示和重复改进的思想，描述了一个场景，其中多个代理（分别被提示的LLM实例）协作解决一项任务。他们表明，使用多个 LLM 实例的多代理方法是具有 CoT 或自我一致性的单一模型的有前途的替代方案，其推理性能优于基线。 [59]直接将自我一致性的概念应用于多个代理的答案以做出最终决定。陈等人。 [5]表明不同的代理（例如，具有不同的后端模型）增强了响应多样性，从而导致更丰富的讨论。

关于多智能体系统的局限性和内在特征的研究很少。王等人。 [60]质疑围绕多代理系统的炒作，并表明单代理LLM可以通过可靠的提示实现与多代理LLM相似的性能。尹等人。 [71]将重点放在他们的系统最有效的地方，但也提供了对试图改进推理的各种单模型和多代理系统的计算成本的一些见解。我的目标是通过研究对话任务解决的多主体讨论的内在特征和局限性来填补这一研究空白。

3 Taxonomy

多主体LLM的研究领域很活跃但仍处于起步阶段。罗西等人。 [45]系统地调查了截至2018年的集体行为多智能体算法。他们将多智能体系统的任务分为三个主要类别：（1）空间组织行为，其中智能体旨在实现与环境交互可忽略不计的空间配置，（ 2）对环境进行集体探索，代理之间的交互有限；（3）代理与环境和自身交互的合作决策。然而，最近出现的有关多智能体系统的研究并不属于这些类别中的任何一个[13,47,61,71]。郭等人。 [17]直接提到解决问题作为研究的一个分支，将LLM视为代理人。具体来说，我建议引入（4）对话式问题解决，以考虑自然语言处理的最新进展。通过对话式问题解决，智能体与环境的交互很少，并依赖于彼此之间的交互来解决任务。在这项工作中，我专门研究通过LLM代理解决对话问题。虽然对话式问题解决领域的研究活动不断增长，但我发现缺乏针对这些多智能体系统的最佳实践调查。因此，需要进行全面的文献综述来开始有关多主体LLM的有意义的研究。我深入探讨了基于代理的LLM的构成、代理如何交互以及如何做出决策。我确定了自 2022 年以来使用多代理LLM的 20 项相关工作，为我们和其他人的工作提供了对该领域的深入了解，可将其用作进一步研究的起点。我提出构成多代理LLM的三个主要支柱：代理、讨论和决策。在阅读过程中，我特别注意到属于这些类别的贡献。我详细介绍了每个支柱的常用技术和最先进的研究。

3.1 Agents

代理会收到讨论任务的 LLM 实例的提示。我将参与对话的代理人称为参与者。参与者被提示以特定的风格或格式进行交流，通常会产生一个角色[63]。例如，角色可以是领域专家 [55, 63]，以更有效地利用训练数据中的知识，也可以是个性 [47]，以使讨论更加动态。一些作品还在讨论中引入了更集中的角色，具有不同的功能，例如提出解决方案[63]、控制轮流[55]或确保代理在讨论期间保持其角色[47]。我将这一角色称为主持人，可能包括一个或多个集中目的。

3.1.1 主持人

有几部作品包括了讨论的中心代理人。这个中央主持人的目的因作品而异。通常，主持人通过提示或架构设计保持中立，而不是在讨论中引入主观性。

草案提案人。有些决策机制需要反复起草。为此，可以聘请主持人提出新的解决方案，同时考虑其他代理的反馈[9]。提案人草案不会影响决策，并且在对话过程中保持客观。因此，提示将已经提出的想法总结成草案，旨在满足最大数量的代理。

Turn Manager. 不需要预先定义讨论中代理的轮次顺序。受到脱口秀或商务会议等人际互动的启发，Suzgun 和 Kalai [54] 聘请了一位主持人，该主持人有权让专门代理就问题进行咨询。如有必要，还可以让额外的专家代理参与解决问题。这种方法使讨论变得动态，而不是遵循定义轮流的常用方案[71]。

政策反馈。座席可能会在讨论期间难以找到共同点或遵守预定义的准则。在这些情况下，政策反馈机制可以鼓励代理人的某些行为。施等人。 [47]雇佣一个监督代理人来检查讨论代理人在谈话过程中不会忘记他们所诱发的个性。傅等人。 [12]在谈判游戏中使用观察代理向各个代理提供有关如何改进谈判策略的书面反馈。

任务说明符。对于多代理系统（例如，在软件开发中），用户输入和相应的任务可能非常详细且难以解释。李等人。 [31] 诸葛等人。 [77]不要直接将用户输入传递给代理。在讨论之前，他们实现了一个额外的步骤，进一步指定用户给定的任务。此步骤可以提供一个计划，指示代理如何解决更复杂的任务，例如开发应用程序。

状态分类器。多代理讨论的一个关键挑战是决定何时终止交换。傅等人。 [12]采用话语状态分类器来确定讨论是否正在进行、已完成，或者代理之间仍然不太可能达成协议。虽然他们使用这个分类器进行相对简单的谈判游戏，但话语状态分类器的概念也可以应用于其他任务，在似乎不太可能达成共识的讨论中可能节省计算资源。

在这里插入图片描述

图 2. 用于对话式问题解决的多代理LLM的分类。带下划线的节点表示与我们的实验相关的内容。有关所有组件的说明，请参阅第 3 节。

3.1.2 参与者

参与者是通过提供反馈和改进当前解决方案来为讨论做出贡献的代理。通常，参与者有独特的偏好和信念，根据他们的偏好参与讨论。
LLM。每个参与者都以LLM为核心，产生思考过程并为讨论做出贡献。 LLM向其他代理人产生建设性的反馈，改进当前的草案，并可以通过提示提出新的想法。李等人。 [32] 发现像 GPT-4 [40] 这样具有高推理能力的模型可以为讨论提供更好的贡献，从而在需要强有力协作的任务中获得更高的分数。

人物角色。可以提示参与讨论的每个代理代表个性 [47]、专家角色 [63, 67] 或类似属性。这些属性称为代理人的角色[63]。角色通过提供更独特的想法和固执己见的反馈来增强讨论。它们可以提高推理和知识密集型任务的表现，例如解决谜题[63]、创意故事写作[63]和数学推理[54]。选择正确的角色也可以产生较少偏见的结果[69]。

记忆。为了遵循更人性化的互动，Park 等人。 [43]采用一个内存模块来存储每个代理的讨论日志。值得注意的是，根据对话格式或要解决的任务，不同的代理可以有不同的可用讨论日志，而无法访问所有信息 [43, 71]。这些动态还有待进一步探索，因为尚未在多智能体问题解决的背景下研究智能体之间信息差异的影响。

工具。由于复杂性或模块化，有些问题对于LLM代理人来说可能具有挑战性或不可能。对于此类情况，庄等人。 [76] 使用外部工具为其代理提供支持。理想情况下，参与者可以根据情况从一组工具中选择合适的工具。虽然当前的 LLM 代理在正确评估情况方面往往存在问题，但数据集 ToolQA [76] 可用于微调 LLM 代理在正确情况下使用哪些工具。

3.2 Discussion

代理交互必须遵循一些准则。这些准则定义了轮到哪个代理参与讨论以及谁可以访问哪些信息。我评估的几乎所有作品都使用了针对其特定应用量身定制的独特话语政策。这些通常可以被描述为一种讨论范式，而提示也在代理如何交互方面发挥着重要作用。

3.2.1 范式

必须澄清讨论的结构，以确定代理在什么概念下进行交流。这通常涉及架构修改和顺序处理实施的讨论。我关注尹等人。 [71]并将这个一般概念称为范式。他们概述了四种示例性范例，它们的轮次顺序和信息可见性有所不同。这些范例被称为记忆、接力、报告和辩论。我将在下面扩展讨论范式的各个方面。

Turn Order. 每个范式的一个重要方面是讨论期间各个代理的轮流顺序[71]。讨论可以相当简单地进行，每个代理都有机会相继做出贡献。更复杂的范式会混淆轮次顺序，影响信息流向各个代理的速度[71]。

能见度。可以改变范式来限制单个代理的信息访问。具体来说，范式可以具有代理之间消息的不同可见性[71]。例如，一种范例可能允许所有代理之间交换的所有消息的完全可见性。另一种范例可能会将其限制为仅直接交换消息的代理。

总结者。当考虑跨多个轮次的详细讨论时，对代理人的LLM的提示输入变得越来越大。即使是现代的LLM也难以有效地利用长上下文信息[34]。杜等人。 [9]采用总结模块将冗长的初步讨论浓缩为基本要点。他们表明，与长上下文输入相比，讨论记忆的总结可以提高性能。

Agent Number. 参与讨论的代理数量对于讨论的展开方式起着重要作用。杜等人。 [9]表明，通过增加讨论参与者的数量，推理任务的性能会变得更好，这可能是由于由此产生的额外推理步骤。王等人。 [63]将他们的角色分配器与固定和灵活数量的生成角色进行比较。他们的结果表明，使用灵活数量的角色优于固定方法，这凸显了LLM能够自行决定一些讨论参数。

3.2.2 提示

大多数多智能体系统利用指令调整的 LLM 作为讨论的智能体 [54, 71]。将这些模型置于推理模式后，系统会提示他们一般讨论设置、任务说明、之前的讨论日志以及分配的角色等附加信息。不同作品的提示技术差异很大，并且取决于系统应用程序。我在下面重点介绍一些相关示例。

上下文长度。为了让LLM参与讨论，每个提示中都包含初步讨论。杜等人。 [9]发现较长的提示会导致收敛到正确答案的速度较慢。然而，最终共识的质量表现出性能的提高。这凸显了模型性能和效率之间的权衡。潜在地，这种现象也可以在具体讨论的背景下观察到。

角色分配者。早期使用 LLM 的多智能体系统不使用或仅使用单个角色 [74]。不同的任务可能需要或受益于专门的角色，而这些角色的手动定义是劳动密集型的。王等人。 [63]表明LLM有能力自己找到好的人物角色。因此，可以有效地提示LLM生成适合任务和示例的角色列表。

3.3 Decision Making

许多评估的作品没有提供决策机制，只是在固定点终止智能体之间的讨论[32, 47]。无论如何，都会采用一些决策机制的变体。我将它们分为三种主要类型：投票、共识和树搜索。投票对于类似于分类或标记问题（例如多项选择 QA [41]）的任务很有用。如果智能体之前提出了可能的解决方案，投票机制也可以解决生成任务。共识主要用于创造性的故事写作等生成任务[47]。通过迭代反馈循环，所有代理都对最新的草案进行了改进。一旦每个代理人就最新草案达成一致而无需进一步修改，即可达成共识[63]。树搜索可以帮助遍历讨论的多个可能过程以获得最佳解决方案[75]。当将多代理系统应用于多步骤任务时，它也可以提供帮助[22]。

3.3.1 投票

代理人可以提出自己的草稿作为解决方案来解决讨论期间的生成任务。其他任务可能本质上提供一组标签供选择（多项选择）。通过基于投票的决策，代理人可以对他们喜欢的解决方案进行投票。杨等人。 [69]解释了进行投票的几种方式。

Ranked. 每个智能体都可以将可能的解决方案从最好到最差进行排序[69]。这种方法允许对首选解决方案进行权衡。通过排名投票，可以找到在合理程度上满足许多代理的折衷方案。在之前的工作[69]中，排名投票显示了对人类集体行为的强烈估计。

累计。使用累积投票，每个代理都有固定数量的点来分配在提议的解决方案中[69]。选择得分最高的解决方案作为最终决策。对于LLM，如果希望代理人之间达成高度一致，那么与排名投票相比，累积投票是更好的选择。这是因为通过指示每个代理的同意（不同意）强度，累积分配多个点会产生一致的结果[69]。

赞同。杨等人。 [69]详细阐述了批准投票。在这里，每个代理可以选择固定数量的解决方案进行批准。强制代理批准固定数量的解决方案可能会减少LLM在决策过程中的顽固性，从而可以更快地收敛于更开放的任务。批准投票的变化可能不那么严格，允许代理批准较少的解决方案或不批准任何解决方案。更动态的批准机制可能会表现出更好的情境绩效，尤其是在具有明确参考的任务上。

3.3.2 共识

生成性任务可以通过协作创建草稿来解决。直觉是通过考虑多个代理创建草稿的想法来产生更好的解决方案。共识与投票不同，因为不是从一组草案中选择最佳解决方案，而是对当前草案进行细化，直到满足共识要求。

一致性。当重复提示一个或多个代理执行同一任务时，可以获得一组可能的解决方案。自我一致性[61]采用可能的解决方案并检查它们的一致性。选择最一致的解决方案，即与所有其他解决方案最相似的解决方案作为最终答案。虽然自我一致性[61]最初是使用单代理LLM提出的，但这种机制也可以应用于多代理系统[59]。

迭代。迭代共识不是一次生成多个解决方案，而是连续提出新的解决方案。因此，通过持续的讨论来完善输出，直到满足一定数量的代理为止。这个想法被用于诸如 Solo Performance Prompting [63] 之类的提示技术和像 PEER [46] 这样的协作模型。思想交流 [71] 和 Chen 等人。 [5] 在多智能体讨论期间执行迭代共识，同时利用试图相互说服的各种模型。

3.3.3 树搜索

在讨论过程中，特工们针对问题提出了几种解决方案。从集合中选择最好的一个并不是一件小事。讨论过程中提出的各种解决方案可以绘制为决策树，并且存在多种方法来遍历该树以获得最佳解决方案。陈等人。 [7] 强调了多智能体LLM的树搜索方法带来的效率问题。由于探索率较高，最终解决方案的生成速度可能会慢很多倍，从而阻碍了其实际应用。因此，搜索树的方法对于效率和性能至关重要。

评论家。李等人。 [31]使用循环评论家来选择所谓的最佳草稿。在每个回合中，代理都会制定一组可能的解决方案。批评者可以是有提示的LLM或人类，然后选择最佳解决方案。胡等人。 [22]采用树规划器来解决多步骤任务。树规划器在执行之前生成多个任务计划。如果任务规划器在遍历决策树时遇到错误，它将继续在前一个分叉节点处遍历树。这两种变体都不同于蒙特卡罗树搜索[48]等启发式方法，因为批评者的选择标准是基于即时工程或人类偏好。

启发式。多智能体对话的决策树也可以进行启发式探索。使用启发式方法，不需要额外的模型来遍历树。周等人。 [75]使蒙特卡罗树搜索[48]适应多智能体设置，并通过利用和探索率控制问题解决过程。具体来说，它们连续执行六个步骤（选择、扩展、评估、模拟、反向传播和反射），直到任务完成或达到极限。还有其他一些努力利用已知的树搜索算法进行多智能体交互，例如波束搜索[66]或最佳优先树搜索[28]。虽然这些算法在性能和速度上有所不同，但它们仍然适合该类别，因为一般概念仍然是对树的启发式探索。

4 Methodology

我首先解释我的方法背后的原因。为了回答研究问题并进行相关实验，需要一个进行多智能体讨论的环境。为了填补这一空白，我提出了一个新颖的框架，可以使用多代理LLM进行实验。我详细介绍了我的实验的代理设置、讨论范式和决策。此外，我还提供了有关所使用的数据集和指标的详细信息。

任务绩效。本研究重点关注多主体LLM的优势、劣势和特征。因此，我设计了一些实验来分析对话方案和有关话语的其他潜在影响特征。讨论格式如何影响多代理对话的问题仍然悬而未决。因此，我在四种通信范式下评估多代理LLM，每种范式的顺序和代理之间对信息的访问都有所不同。为了验证多智能体系统的好处，我直接将这些范式与具有 CoT 的单个 LLM 进行比较 [64]。在所有实验过程中，我都会特别关注这些范式所表现出的差异，因为对这些方案的深刻理解可以提高对现有系统的了解，并促进新型通信范式的开发。此外，它们与 CoT 的直接比较可以让我们深入了解多智能体系统的优势，以及哪些任务应该由单个LLM来解决。

讨论趋同。多主体通信的内在特征仍未得到充分探索。其他研究侧重于最大限度地提高特定任务的绩效 [54,67,74]。为了更深入地了解讨论如何展开，我评估了多智能体话语的融合，查看智能体达成共识之前的轮次和交换消息的数量。我还对多智能体系统是否能够通过基于共识的决策动态适应问题的复杂性感兴趣。为此，我直接观察单个LLM得分较低的样本是否也是讨论时间较长的样本。我期望找到对话范式之间收敛速度的差异，并量化多代理LLM的适应性。此外，某些任务可能受益于某些范例的结构特征，例如轮流顺序或代理之间对信息的访问。这些实验可以深入了解与成功使用多代理LLM相关的关键特征。

代理的影响。我对个体代理如何影响对话进程感兴趣。为此，我通过比较用中立草案提议者替换一名专家之前和之后的表现来测试具有专家角色的单个代理对决策过程的影响有多大[9]。为了测试专家角色代理是否可以作为一个有用的工具来引发多代理系统的参与写作，我测量了删除一个角色之前和之后最终输出的词汇多样性。这可能对改进当前的开放任务系统具有洞察力，这些系统受益于创意写作等引人入胜的写作风格[63]。此外，我对个体代理如何根据其在范式中的位置影响讨论过程感兴趣。因此，我展示了通过另一个LLM自动分配生成的角色，并根据其在范式中的位置评估其生成长度。虽然我希望看到特定于任务的结果对具有专家角色的单个代理的影响，但范式中单个代理的位置可能会显示生成的消息长度的一些不平衡，当需要相当平衡的对话时可能是相关的。通过量化代理人的整体和个人影响，我的目的是展示他们如何影响讨论的进程。

4.1 MALLM Framework

我提出了一个处理多代理讨论的开源框架，称为 MALLM（多代理 LLM）。 MALLM 提供可定制和模块化的界面来研究多代理LLM的特征和组件。可以通过更改简单参数或定义自定义子类来测试新颖的想法。提示模板旨在支持各种任务，只要它们附带说明即可。同时，由于并行 API 调用，该框架具有防错性、高效性，并且具有自己的集成评估管道。 MALLM 最初附带了本研究所需的所有核心组件（参见图 2 中带下划线的组件）。我的目标是不断改进和扩展框架的功能（第 6.2 节）。由于 MALLM 是开源的，其他研究人员也可以在 GitHub 存储库中贡献和改编该框架4。

总体而言，MALLM 具有三个主要组件，为代理、讨论范式和决策协议提供模块化且可扩展的接口。首先，MALLM 可以创建具有角色的代理来讨论可能的解决方案。这些角色可以通过另一个LLM自动生成。其次，MALLM 允许执行各种讨论范式。这些依次在代理之间的信息顺序和可见性方面有所不同。在回合制讨论期间，每个代理通过发送消息并表明他们同意当前解决方案来做出贡献。第三，MALLM 包括一个决策协议，该协议在每条消息之后按照预定义的规则（例如投票、共识）检查所有代理之间是否达成一致。这确保了讨论在适当的点终止并向用户提供最终解决方案。这三个组成部分构成了协作解决问题的多智能体讨论。本工作中使用的讨论的基本过程如下：

(1)自动确定适合任务和示例的专家角色来初始化代理。
(2) 代理人讨论解决例题。 CoT 会提示他们提供有关当前解决方案的反馈、提出改进意见并表明他们同意（不同意）。
(3) 在每条消息后检查代理之间是否达成共识，如果找到最终解决方案则终止讨论。

最近提出的其他框架侧重于多模式支持的生产使用[13]、灵活的对话模式[65]或模拟软件公司的参与者[20]。 MALLM 因其模块化和综合性而补充了这些工作。只要提供任务指令，这种新颖的框架就可以应用于任何有关文本问题解决的任务。其他框架倾向于提供固定的讨论模式或决策协议。 MALLM 与这些作品的不同之处在于提供有关代理、讨论格式和决策的完全可定制性。这有助于对多智能体LLM进行对话式问题解决的复杂研究，使该框架专门针对研究人员。

4.1.1 设置

我使用 MALLM 框架在 8 个 40 GB Nvidia A100 GPU 上以 meta-llama/Meta-Llama-3-70B-Instruct 作为模型运行所有实验。我在附录 A 和附录 G 中提供了所有参数和提示的完整列表。

自动角色分配。与 MALLM 的讨论使用特定于任务和示例的代理角色。由于为每个示例手动指定有用的角色是不可行的，因此我自动分配可以促进丰富讨论的角色。为此，我明确提示另一个 LLM (meta-llama/Meta-Llama-3-70B-Instruct) 为每个示例生成一组不同的三个专家角色。这就产生了一组代表不同信念、观点和熟练程度的专家。自动角色分配的提示可参见附录 G.4。我的方法遵循之前的工作，例如 Solo-Performance-Prompting [63] 和 Meta-Prompting [54]，这些工作表明可以利用现有的 LLM 来自动生成和咨询适合问题的角色。继之前的工作 [5, 71] 之后，我在本研究中使用了三个代理，因为结构复杂性优于两个代理，同时又不会太复杂而无法提供有意义的见解。虽然其他作品使用了不同类型的人物角色，例如人物 [47]，但本作品中生成的人物角色是与任务和示例相关的专家。

讨论范式。为了定义多智能体讨论的结构，我使用 Yin 等人提出的讨论范式。 [71]。这些被称为记忆、报告、接力和辩论。图 3 以图形方式显示了它们的结构差异。表 4 更详细地概述了代理的轮流顺序和信息访问权限。虽然定义话语结构的方法可能有很多，但我选择这四种范式，因为它们在顺序和信息可见性方面有所不同。例如，在记忆范式中，所有代理每轮都会参与讨论一次，并拥有所有可用信息。报告范式有两个从不交换消息的代理，并且只有一个中央代理拥有所有可用信息。通过选择四种讨论范式的多样化选择，这项工作不同于其他研究 [20,46,47]，这些研究通常在单一固定的讨论格式上评估他们的系统。孙等人。 [51]提供了另外三种讨论范式。然而，它们的代理数量不同，这就是为什么它们不能轻易应用于我们的具有三个代理的范例。因此，它们对于本研究来说是不可行的，因为我的目标是找到不同讨论形式产生的特征，而不是代理人的数量。选择记忆、接力、报告和辩论作为本研究的讨论范式，很有可能识别出依赖于对话方案的特征。

共识决定。类似共识的决策机制允许动态结束讨论，并向用户提供最终解决方案。我选择这种迭代共识方法是因为它普遍适合我对生成和 QA 任务的多样化选择。系统会提示代理在每条消息中表明他们是否同意。提示见附录 G.2。然后我通过正则表达式文本匹配提取他们的协议。为了达成共识，所有特工必须就前五轮选秀达成一致。第五轮后，只需多数人同意即可，直至讨论结束。在极少数情况下，代理人无法达成共识，我会在七轮后终止讨论，并使用最新的草案作为解决方案。这种灵活的决策协议遵循 Yin 等人的观点。 [71]，他们称之为多数共识机制。这项研究采用多数共识，与其他研究不同，其他研究要么根本不采用任何决策[46]，要么使用法官代理人做出最终决定[51]。

在这里插入图片描述

图 3.MALLM 的功能应用于我的实验。首先，MALLM 自动确定三个角色。然后，每个角色在四种范式（结构通信方案）之一下为多智能体讨论做出贡献。每次贡献后，决策机制都会检查是否达成共识。

4.2 Datasets

受文本生成分类法的启发，我选择了一组多样化的生成任务 [3]。使用的数据集列于表1中。具体来说，我选择XSum [39]数据集进行摘要，并选择WMT19德语-英语数据集[11]进行翻译。我使用 ETPC [4, 29] 的释义对包括释义类型生成 [58] 的任务。与总结等已建立的任务相比，这种更利基的任务在更具体的场景中测试多代理系统的能力[39]。我还包括三个不同的 QA 数据集：SQuAD 2.0 [44]、简单道德问题 [16] 和 StrategyQA [15]，以评估 MALLM 的独特需求（即提取能力、道德一致性、推理）。我在附录 G.1 的表 18 中列出了用于提示的任务说明列表。以前的作品将多智能体研究重点放在特定应用上，例如故事写作 [63] 或推理任务 [5, 71]，突出了多智能体系统最有效的地方。我与这些工作的不同之处在于，我选择了一系列不同的任务来量化多代理系统在哪些场景下工作以及在哪些场景下失败。所选数据集可以提供多智能体系统功能的全面评估。

由于讨论需要生成许多令牌并且计算资源有限，因此仅评估数据集的子集。我通过 95% 的置信区间和 5% 的误差幅度 (𝑀𝑜𝐸) 从每个数据集中抽取大小为 𝑛subset 的子集进行实验，保守地假设样本比例 𝑝 = 0.5 [8]。

$\frac{Z^2_{0.975} \cdot p(1-p)}{\text{MoE}^2}$

$\frac{1.96^2 \cdot 0.5(1-0.5)}{0.05^2} = 384.16 \approx 385$

$n_{\text{subset}} = \frac{n}{1 + \left( \frac{n-1}{N_{\text{dataset}}} \right)} = \frac{385}{1 + \left( \frac{385-1}{N_{\text{dataset}}} \right)}$

这为我们的测试集提供了每个数据集数百个样本。完整的数据集细节包含在表1中。其他几项关于多智能体系统的研究也评估了讨论的子集[5, 71]。此外，我提供了每个数据集样本量 $n_{\text{subset}}$ 的可追溯计算依据。为了进一步量化结果是否反映完整数据集，我遵循 Wang 等人[59]，在随机子集上运行每个实验五次，并报告不同运行之间任务性能的标准差。

在这里插入图片描述

表 1. 实验中使用的样本数量按 95% 置信区间和 5% 误差幅度 (𝑀𝑜𝐸) 随机提取的数据集，保守地假设样本比例 𝑝 = 0.5。我从每个数据集中随机采样五次，并报告五次运行之间指标分数的标准偏差。前三个任务是生成任务，后三个任务是 QA 任务。

4.3 Metrics

我对表 1 中列出的每项任务使用完善的指标。我包括用于生成任务摘要、释义类型生成和翻译的传统重叠指标。多项选择任务通过准确性来评估。此外，我还会评估更具体的功能，例如生成任务答案的词汇多样性和提取式 QA 的可回答性。基于模型的度量补充了基于 n-gram 的评估度量，以捕获与参考的上下文复杂的相似性。 CoT 提示和 MALLM 对话都带有最终输出，其中包括除解决方案之外的其他内容（例如，推理文本、同意指示）。尹等人。 [71]通过正则表达式文本匹配来使用答案提取。然而，这并不适合更广泛的数据集，因为LLM通常无法跨任务生成标准化答案[2]。因此，我通过提示 LLM（即 meta-llama/Meta-Llama-370B-Instruct）来提取原始解决方案。对此的提示可以在附录 G.5 中找到。

对于汇总 (XSum)，我计算 ROUGE-1、ROUGE-2 和 ROUGE-L [35]。对于释义类型生成（ETPC），我根据 Wahle 等人计算了上述内容和 BLEU [42]。 [58]。我使用 BLEU [42] 评估翻译 (WMT19 de-en)。对于 SQuAD 2.0，我报告综合分数 F1 和精确匹配来评估提取式 QA [44]。我还评估了系统检测 SQuAD 2.0 数据集上无法回答的问题的能力。为此，我修改了代理的任务指令，如果无法从源文档导出解决方案，则将[未知]写为解决方案。通过正则表达式文本匹配来查看此分类的准确性，我评估了系统在可回答性方面的性能。 StrategyQA 和简单道德问题都是多项选择任务。他们的任务指令要求模型输出与首选解决方案相对应的字母（参见附录 G.1）。我报告了多项选择任务的准确性。 Distinct-n 是一种无参考度量，用于计算生成的响应中不同 n 元语法的数量。我为所有生成任务计算 Distinct-1 和 Distinct-2，以根据词汇多样性评估结果 [33]。为了不完全依赖基于 n-gram 的指标 [3]，我为生成任务添加了基于模型的指标 BERTScore [73]。 BERTScore 可以通过嵌入来捕获与参考的上下文相似性，而这可能很难通过 n 元语法比较来检测 [3, 73]。总而言之，所选指标在评估实验结果时提供了多代理讨论的性能和特征的全面概述。

5 Experiments

为了回答所提出的研究问题，我设计了三个实验。首先，我评估多代理系统的任务绩效。通过评估六种不同的任务和四种讨论范式，我确定了关键的优点和缺点。其次，我重点关注多智能体讨论的融合，以解释讨论如何展开。我根据任务以及讨论范式如何影响流程来分析收敛性。第三，我量化了LLM代理人对对话过程的影响，调查代理人角色和代际长度。所有三个实验都是使用建议的 MALLM 框架执行的，遵循第 4 节中解释的方法。

5.1 Task Performance

我根据各种基本下游任务（即摘要、翻译、释义类型生成、提取式 QA）以及复杂推理任务（即战略 QA、道德质量保证）。该实验展示了多智能体讨论的优点和缺点，突出了任务和讨论范式之间的差异。下面我提出本实验的关键研究问题。

哪些讨论范式比单一LLM更有效？
(1) 讨论范式的表现是否依赖于任务？
(2) 讨论的内部沟通结构有多重要？
(3) 多智能体系统与思想链提示相比如何？

LLM代理之间的讨论有什么特点？
(2) 多代理人LLM在识别无法回答的问题方面是否比单一LLM更有效？

该实验的一般设置遵循第 4.1.1 节中描述的方法。我将四种讨论范式（即记忆、接力、报告、辩论）与以 CoT 作为基线的单个LLM进行了比较 [64]。

5.1.1 Results

RQ：讨论范式的表现是否依赖于任务？多智能体系统与思维链提示相比如何？
答：是的，性能取决于任务。多代理 LLM 比具有 CoT 的单个 LLM 具有更强的推理能力，但由于问题漂移而无法执行翻译等基本任务。表 2 显示了与具有 CoT 的单个 LLM 基线相比的所有数据集和范式的评估结果。该图将五次实验运行之间的标准偏差报告为误差线。图 4 (a) 和图 4 (b) 比较了简单道德问题和 StrategyQA 数据集的讨论范式的性能。多代理系统在战略 QA 和道德 QA 的复杂任务方面表现出相对 CoT 基线的改进。值得注意的是，与 CoT 相比，所有讨论范式的战略推理能力提高了高达 4.0% 的准确度（图 4 (b)），概述了智能体迭代改进解决方案的好处。根据任务的要求，多智能体系统显示出逐步规划的能力，并且优于常用的 CoT 方法。这与之前的研究结果一致，表明多智能体系统的性能与 CoT 提示相当或更好 [5,60,71]。

在这里插入图片描述
我没有观察到多智能体讨论相对于基本任务提取 QA、摘要、翻译和释义类型生成的基线有显着的改进（表 2）。对于某些任务，例如 WMT19（de-en）上的翻译，与 CoT 基线相比，我什至发现 BLEU 的性能损失高达 -11.7。由于他们独特的偏好和回合制讨论，代理可能会影响讨论，转向偏离参考的替代解决方案。他们往往会偏离问题，无法将信息浓缩为一个答案，即虽然可以快速找到参考解决方案，但他们会长时间讨论它，从而导致偏离所需解决方案的可能性更高。我将此问题称为漂移，它与术语任务漂移 [1] 相关。任务漂移描述了各种来源和输入对单个LLM的生成过程的影响。问题漂移描述了连续多智能体讨论问题期间的性能损失。虽然单个智能体的任务漂移可能是多智能体环境中问题漂移的一个原因，但它可能不是唯一的原因。附录 H.2 中的示例表明，对话代理倾向于提出多个解决方案而不是单一答案，这可能是因为他们试图更快地与其他代理达成共识。翻译是一项答案空间有限的任务，通常是一对一匹配的单词或序列。另一方面，摘要（XSum）有更多的复合要求，包括理解具有更高上下文复杂性的较长文档，这可能就是为什么讨论范式在这里可能表现不佳的原因（ROUGE-L 中为-0.8）。值得注意的是，王等人。 [60]质疑多智能体系统是否可以提供普遍更好的解决方案。通常，具有合适提示的单个代理可能优于多代理设置。我进一步具体说明了对基本任务的观察，强调最先进的多智能体系统的优势与更复杂的任务相关。

在这里插入图片描述

表 2. 每个范式所有数据集的评估统计数据。突出显示最好和最差的结果。小数字报告了对数据的随机子集进行的五次实验之间的标准偏差。

RQ：讨论的内部沟通结构有多重要？
答案：集中讨论范式可以提高多代理LLM的道德一致性。多主体讨论还将简单道德问题数据集的准确性提高了 6.6%（图 4 (a)）。这表明多智能体系统通常可以改善道德决策。我怀疑将相关专家纳入全体会议可以比单个LLM提供更独特的思维过程，从而增加最终响应的一致性。报告范式似乎显着促进了性能提升。它与其他范例的不同之处在于代理之间的信息可见性。通过报告范例，一个代理可以概览正在交换的所有消息，而其他两个代理从不相互交互。使用其他范式（记忆、传递、辩论），个体代理人的偏好可能会在话语过程中更多地影响其他代理人的信念。因此，将额外代理视为顾问的更加集中的对话结构可以鼓励更加一致的决策过程。我鼓励对多代理人LLM的道德一致性进行更广泛的研究。未来的工作应该探索其他中心化范例以改善道德一致性。在此过程中，应考虑有关性别偏见 [30] 或毒性 [14] 等额外数据集，以挑战当前多智能体系统的一致性。

在这里插入图片描述

表 3. SQuAD 2.0 数据集（按范例）的平均可回答性得分。可回答性是通过正则表达式匹配最终解决方案中的[无法回答]字符串并计算该分类的准确性来衡量的。最好的结果被突出显示。

RQ：多代理LLM在识别无法回答的问题方面比单个LLM更有效吗？
答案：否。表 11 显示了抽取式 QA 数据集 SQuAD 2.0 上可回答性的评估分数。它显示了系统检测源文档不支持的无法回答的问题的能力。确定问题的可回答性对于系统减轻或透明化不合格答案中的幻觉至关重要[6]。然而，与 CoT 提示相比，多智能体讨论在识别不可回答问题方面的表现并没有明显更差或更好。最佳范例（中继）仅将可回答性检测的准确性提高了 0.5%。这意味着需要额外的系统来可靠地确定问题的可回答性[70]，因为单代理LLM和多代理LLM的检测都不够准确。

5.1.2 Takeaways

(1) 与具有 CoT 的单个 LLM 相比，多代理 LLM 具有更强的推理能力。
(2) 多智能体系统可以提高最终响应的伦理一致性。
(3) 具有信息限制的集中范式可以改善道德一致的讨论。
(4) 由于问题漂移，CoT 在翻译等基本任务上优于多代理LLM。
(5) 在检测无法回答的问题时，多代理系统的表现与单个 LLM 类似。

5.2 Discussion Convergence

检查多智能体讨论的长度可以更深入地了解它们从开始到找到最终解决方案的过程。此外，我感兴趣的是共识机制能够如何快速、可靠地导致讨论收敛以及这对任务性能有何影响。为了研究多智能体系统是否从较短或较长的讨论中受益，我比较了不同讨论长度的性能。下面我提出本实验的关键研究问题。

哪些讨论范式比单一LLM更有效？
(2) 讨论的内部沟通结构有多重要？

多智能体讨论期间哪些因素影响任务绩效？
（1）讨论的长度对任务绩效有影响吗？

LLM代理之间的讨论有什么特点？
(3)多主体LLM如何讨论特别困难的例子？

对于实验的第一部分，我再次遵循第 4.1.1 节中描述的方法。这次，我结合了所有五次实验运行的结果样本进行评估，因为需要更大的样本量来识别讨论收敛的清晰趋势。我报告交换的消息数量，直到每次讨论以协商一致结束。我选择交换的消息而不是轮数来公平地比较四个评估的讨论范式。这确保了辩论（每轮交换 5 条消息）等范式在计算量方面与中继（每轮交换 3 条消息）等其他范式保持可比性。为了测试令牌级别长度对任务性能的影响，我报告了生成的令牌和评估分数之间的相关性。实验的第二部分比较了 MALLM 和单个模型一圈、两圈/三圈、四圈或更多圈的性能。该实验的目标是将 MALLM 讨论收敛性与任务难度联系起来，任务难度由具有 CoT 的单个 LLM 的表现来表示。以前，每次实验运行的所有数据子集都是随机的，这对于这部分实验来说是不可行的。因此，我对 MALLM 执行一次非随机运行，并对同一子集执行一个模型。由于 MALLM 和解决相同样本的单一模型，我可以对数据做出比较假设。然后，我根据代理所需的轮数划分结果。带有 CoT 的单一模型的结果会相应地分开。这样，我可以确保基线和 MALLM 结果的可比性。

5.2.1 Results

RQ：讨论的长度对任务绩效有影响吗？
答：取决于任务。推理任务受益于更多的讨论，而长时间的讨论也会导致道德一致性崩溃。图 5 显示了在所有代理都同意解决方案（即达成共识）之前交换的消息数量。棕色虚线报告了基于交换消息数量的所有范例的平均性能。 CoT 基线的平均得分作为比较。附录 C 的图 10 报告了其他数据集的讨论收敛。所有范式和数据集的讨论很快收敛，仅交换一些消息，直到产生最终解决方案。通常，代理人对第一个代理人提出的第一份草案感到满意。在这种情况下，讨论在内存、中继和报告范例的三个消息（每个代理一个消息）之后结束。辩论范式强制两个代理之间进行两轮辩论，然后再次检查是否一致。因此，这里的讨论在 5 条和 10 条消息后提前结束（第 1 轮和第 2 轮分别有 5 条消息）。大多数其他讨论在前三轮内结束。这表明专家角色代理人彼此之间高度认同。由于如此多的讨论在第一轮后结束，研究这是否是由于智能体有效妥协的能力造成的，或者更确切地说是因为如果之前的想法是合理的，他们不太可能提出自己的解决方案，这将是很有趣的。进一步的研究可以在第一轮之前测试生成代理首选的解决方案，以避免快速达成共识并延长讨论时间。我想测试一下代理人在讨论期间改变意见的频率。还可以包括更高的温度来接收更多样化的答案，或者提示代理批判性地检查以前的答案并降低宜人性。

在这里插入图片描述

图 5. 代理就 (a) XSum 和 (b) 简单道德问题达成共识之前交换的消息数量。该图综合了五次实验的所有结果。

我发现对于大多数任务（摘要、翻译、释义类型生成、提取式 QA），评估分数并没有随着讨论的长度而提高，与基线性能相比几乎没有下降。这似乎是基本任务的共同特征。多代理系统有可能在几条消息后迅速达到最佳结果。尽管如此，个体代理的偏好不必要地拖延了讨论，样本数量导致问题漂移，如第 5.1 节所述。在这里，更快地达成共识可以提高效率和性能。在简要讨论大多数问题时，多智能体系统可以改善道德一致性（参见图 4 (a)）。然而，当代理人长时间讨论时，道德一致性会严重下降（参见图 5）。我把这种现象称为对齐崩溃。一致性崩溃的原因可能是智能体在解决问题的想法上变得更具探索性。附录 H.1 中提供的示例表明，代理商无视最初的建议（这本来是正确的），并继续进行其他考虑。这些考虑最终导致了不一致的共识。造成这种行为的原因之一可能是问题漂移（如第 5.1 节中所述）会促进对齐崩溃。然而，考虑到对齐崩溃的强度，可能还存在其他需要研究的促进因素。基兰斯等人。 [27]观察社会动力学中多智能体系统的错位。他们表明，代理人的联盟取决于人口、领域以及代理人加权偏好之间的冲突。后者似乎与这项有关解决问题的工作特别相关，因为我有意通过使用人物角色为代理人配备一组独特的偏好。对齐崩溃引发了对多智能体系统的毒性 [14] 和 AI 安全性 [36, 38] 的担忧。检查响应一致性的专用代理可能会提高多代理系统的安全性。之前在多智能体交互规划阶段采用了安全宪法[23]。类似的构成可以集成到多智能体系统中以解决问题，以提高讨论过程中的一致性。

RQ：讨论的内部沟通结构有多重要？
答：对所有代理的完整信息访问有助于更快达成共识。表 4 显示了智能体通过记忆、报告、中继和辩论范式达成共识之前所需的轮次或消息数量。最右边的列表示范式的轮次顺序以及代理之间的信息访问。范式影响信息吞吐量，在 4.79 在内存范式上交换消息后，代理最快达成共识。辩论范式需要交换最多的消息（7.58），因为它需要两个智能体每轮进行两轮内部辩论。与具有相同轮次顺序的存储器范例相比，中继范例显示出明显更差的信息吞吐量。平均而言，中继讨论只有在交换了 7 条消息后才会结束。这表明代理在讨论日志中的可见性有限会导致共识速度变慢。同时，存储器和继电器的性能类似（表 2）。因此，如果响应速度至关重要，讨论应该使用代理之间完全透明的范例。

在这里插入图片描述

表 4. 每个范式讨论的平均长度（按回合数和达成共识之前交换的消息数计算）。请参阅图 3 中讨论范式的图形概述。首先按数据集对值进行平均，然后按范式对值进行平均，以考虑不同的数据集大小。信息访问是指谁可以看到代理𝑎𝑖写的消息。最短（绿色）和最长（红色）的讨论在回合和消息中都会突出显示。轮流顺序和信息访问被突出显示（蓝色、橙色），以显示报告和辩论的轮流中信息访问的变化。

RQ：多代理LLM如何讨论特别困难的例子？
答案：具有共识决策的多代理LLM可以根据问题的难度动态调整讨论的长度。表 5 显示了具有 CoT 和 MALLM 的单个 LLM 在所有数据集上的性能。平均分数被分成样本，代理们讨论一轮、两轮到三轮、四轮或更多轮，直到达成共识。我使用样本的平均 CoT 性能来表示这些样本的难度。对于几乎所有任务都需要与 MALLM 进行长时间讨论（4 轮以上）的样本，单模型 CoT 基线的性能下降，这表明这些例子更难解决。这表明具有共识决策的多智能体系统如何能够适应问题的复杂性，并本质上更长时间地讨论更困难的样本。同样，该表还显示了讨论时间较长的样本如何通过几乎所有任务的多智能体讨论获得较低的分数。考虑到获得的见解，由于样本难度增加和问题漂移，这些任务的性能预计会略有下降。然而，我再次注意到道德一致性从 93.5（一回合）降至 47.1（四回合或更多回合），这表明一致性崩溃。此外，StrategyQA 是唯一受益于对困难示例进行更长时间讨论的任务，其准确率比 CoT 高出 24.5%（四轮或更多轮）。这是因为多智能体系统可以根据数据集的要求进行逐步推理和战略规划。因此，他们可以提高特别需要这些技能的难题的表现。

5.2.2 Takeaways.

(1) 大多数多智能体讨论在前三轮内达成共识。
(2)代理之间充分访问信息可以促进更快的共识。
(3) 较短的讨论可以减轻多代理LLM的问题漂移。
(4)长时间的讨论提高了多智能体系统的推理能力。
(5) 长时间的讨论可能导致道德联盟崩溃。
(6) 多智能体LLM可以更长时间地讨论更困难的任务，以适应问题的复杂性。

5.3 Impact of Agents

我通过考虑（1）他们的角色和（2）他们在讨论范式中的位置来衡量个体代理的影响。多智能体讨论通常使用角色来促进智能体之间的丰富交流[47,55,63,67]。然而，与中立提示的LLM相比，人物角色在对话式解决问题方面的优势尚未量化。我专注于通过专家角色从模型预训练中获取更专业的知识和偏好。我还对对话方案（范式）中的结构差异如何影响个体代理的响应长度感兴趣，因为这可能表明讨论期间存在不平衡。孙等人。 [51]描述了单个代理人垄断话语的风险，掩盖了其他代理人的见解。因此，我评估响应长度是否可以促进垄断。我进一步测试任务性能是否受到讨论中生成的令牌总数或每个代理消息生成的平均令牌数的影响。下面我提出本实验的关键研究问题。

多智能体讨论期间哪些因素影响任务绩效？
(2) 人物角色如何影响讨论和结果？
(3) 代理响应的长度与角色和结构有何关系？

LLM代理之间的讨论有什么特点？
(1) 多主体LLM和单LLM之间的词汇多样性是否存在差异？

在这个实验中，我首先像第一个实验（第 5.1 节）一样在三个专家角色之间进行讨论。为了与此进行比较，我用中立草案提议者代理替换了其中一个代理 [9]（参见图 2）。明确提示中立代理在讨论过程中保持客观，并结合其他代理的反馈提供问题的潜在解决方案。它不会影响决策，提示不要代表主观偏好。对草案提案人的具体提示可参见附录G.3。我没有更改此实验的任何其他参数。我通过关注每个讨论范式中最中心的代理来测试生成长度的不平衡，因为这些中心代理与其他代理的位置和信息差异最大（参见图 3 和表 4）。为此，我专门关注数据集生成最多的前十个角色，并调查他们在讨论范式中的位置是否影响他们的响应长度。为了通过代理人的响应长度来测试垄断，我研究了响应长度与对所述响应达成一致的代理人数量的相关性。正相关表明较长的消息可以促进决策过程的垄断。为了检查生成的令牌数量是否影响最终结果的质量，我为（1）讨论中生成的令牌总数和（2）与指标分数相关的每条消息生成的平均令牌数量创建了散点图。

5.3.1 结果

RQ：人物角色如何影响讨论和结果？
回答：角色有利于复杂的任务，例如战略 QA 或道德 QA。在翻译等简单任务中，它们可能会使设置过于复杂并损害性能。图 6 比较了使用三个角色和使用两个角色以及一个中立草案提议者代理之间的任务性能。因此，这些数字描绘了仅将一位专家及其偏好排除在决策之外的影响。其他数据集的结果包含在附录 D 的图 11 中。专家角色的影响因任务而异。当用草案提议者替换一名专家时，简单道德问题或 StrategyQA 等复杂任务的性能会受到影响。这些也是 MALLM 相对于 CoT 单一模型进行改进的任务（参见表 2）。这凸显了人物角色的价值以及他们所带来的个人偏好。智能体的角色及其对决策的影响对于在这些复杂任务上获得优于单一模型的性能至关重要。有趣的是，我无法对 ETPC 和 WMT19 等基本任务进行这种观察。在这里，更换或包括专家不会对任务绩效产生明显影响。有时，角色甚至似乎使问题变得过于复杂。在 ETPC 上，MALLM 在所有范式上都有草案提案者的情况下表现更好。自动生成的角色可能对这些任务没有好处，这也可以解释它们与一般 CoT 基线相比表现不佳的原因（参见表 2）。任务复杂性可能是角色相关性的关键。研究结果表明，角色应该用于解决道德质量保证或战略规划等复杂问题。对于翻译等任务，我建议不要考虑代理和角色，这可能会使设置过于复杂。
在这里插入图片描述

图 6. 专家角色对复杂任务 (a) 和 © 以及基本任务 (b) 和 (d) 决策的影响。将由中立草案提议者（红色）替换单个提示专家角色时的性能与第 5.1 节中使用三个专家角色（蓝色）的性能进行比较。误差线是五次运行之间的标准偏差。

RQ：多主体LLM和单一LLM之间的词汇多样性是否存在差异？
答案：是的。具有角色的代理可以提高响应的词汇多样性。图 7 (a) 显示了 ETPC 数据集上生成的释义的词汇多样性，由 Distinct-1 指标测量 [33]。它将四种讨论范式（记忆、接力、报告、辩论）与 CoT 基线进行了比较。 Distinct-n 是一种无参考度量，用于计算生成的响应中不同 n 元语法的数量。其他数据集的 Distinct-2 和 Distinct-1 分数包含在附录 B 中。图 7 (b) 显示了三个专家角色与具有中立草案提案代理的两个专家角色相比的词汇多样性。我注意到，与 ETPC 数据集的单一模型相比，多智能体设置在结果答案的词汇多样性方面产生了显着变化。具体来说，与单一模型相比，多智能体系统在所有范式中产生词汇上更加多样化的释义，并将 Distinct-1 分数提高了 2.7 分。虽然这不是质量衡量标准，但它显示了多智能体系统在正确的设置下可以产生的影响，使语言输出多样化。如图 7 (b) 所示，仅替换决策中的单个中性代理就会导致词汇多样性显着下降。这凸显了角色对于增加词汇多样性至关重要。这一特征可能会被用于其他任务，比如创意写作[63]，它受益于词汇多样化的文本和有趣的表述。由于 ROUGE-L 在 ETPC 上下降了高达 5.5 分（表 2），因此如何在不牺牲任务性能的情况下利用改进的词汇多样性仍然是一个悬而未决的问题。

在这里插入图片描述

图 7. ETPC 数据集的词汇多样性比较。 Distinct-n 是一种无参考度量，用于计算生成的响应中不同 n 元语法的数量。

RQ：代理响应的长度与角色和结构有何关系？
答案：范式中的中心代理在解决生成任务时提供更长的贡献。对于某些任务（例如总结）来说，通过较长的响应进行讨论垄断是一种风险。表 6 和表 7 显示了 XSum 和 WMT19 自动生成的前十个角色。其他数据集的角色统计数据可以在附录 E 中找到。对于每个角色，我报告它们出现的频率、它们总共贡献了多少条消息，以及它们平均每次贡献生成多少个令牌（即角色的消息长度）。最右边的列根据讨论范式中的位置指示代理的消息长度。具体来说，𝑎𝑔𝑒𝑛𝑡2,3 − 𝑎𝑔𝑒𝑛𝑡1 指的是每条消息生成的平均令牌数，而𝑎𝑔𝑒𝑛𝑡1 始终是范式中最中心的代理。它们的确切角色可以从图 3 中确定。通过从 𝑎𝑔𝑒𝑛𝑡2 和 𝑎𝑔𝑒𝑛𝑡3 每条消息生成的令牌的平均数量中减去𝑎𝑔𝑒𝑛𝑡1 每条消息生成的令牌的平均数量，我检索了一个指示代理消息长度的值，具体取决于他们在讨论范式中的地位。因此，如果差异为负，平均而言，代理𝐴会生成更多代币。如果差异为正，则 𝑎𝑔𝑒𝑛𝑡2 和 𝑎𝑔𝑒𝑛𝑡3 生成更多令牌。
在这里插入图片描述

表 6. 为 XSum 生成的前 10 个角色。总共为 1544 次讨论生成了 4632 个（1470 个唯一）角色。差值 𝑎𝑔𝑒𝑛𝑡2,3 − 𝑎𝑔𝑒𝑛𝑡1 指的是每条消息生成的平均代币数量。如果范式允许，𝑎𝑔𝑒𝑛𝑡1 始终是最中心的代理。负值表示 𝑎𝑔𝑒𝑛𝑡1 平均生成的代币多于 𝑎𝑔𝑒𝑛𝑡2,3。差异是按范式报告的。 “-”表示没有足够的数据来计算差异，例如，如果所有角色都提示为 𝑎𝑔𝑒𝑛𝑡1。

在这里插入图片描述

表 7. 为 WMT19 生成的前 10 个角色（de-en）。总共为 1364 次讨论生成了 4092 个（277 个唯一）角色。差值 𝑎𝑔𝑒𝑛𝑡2,3 − 𝑎𝑔𝑒𝑛𝑡1 指的是每条消息生成的平均代币数量。如果范式允许，𝑎𝑔𝑒𝑛𝑡1 始终是最中心的代理。负值表示 𝑎𝑔𝑒𝑛𝑡1 平均生成的代币多于 𝑎𝑔𝑒𝑛𝑡2,3。差异是按范式报告的。 “-”表示没有足够的数据来计算差异，例如，如果所有角色都提示为 𝑎𝑔𝑒𝑛𝑡1。

由于 XSum 是用于总结新闻文章的数据集，表 6 显示自动角色分配可以生成普遍相关的角色（例如记者）和与更具体的示例相关的不同角色（例如经济学家、历史学家）。不同角色的消息长度不同。从生成的前十名角色中，法律专家似乎是最保守的代理人，每条消息大约生成 27.86 个代币，而体育记者平均生成 45.68 个代币。有趣的是，与需要更多领域知识的任务（如 XSum）（每条消息 35 个标记）相比，为释义类型生成（表 14）和翻译（表 7）生成的语言专家角色生成的响应明显更长（每条消息 129 和 151 个标记））。然而，我注意到，这种差异的未知部分可能来自本质上不同的任务特征，例如，无论角色如何，代理提出的翻译可能比摘要更多的解释。我建议进一步研究以找到可以影响生成长度的特定关键字。

我发现讨论范式会影响代理的生成长度。生成任务 ETPC、XSum 和 WMT19 的角色统计数据强调，更中心化的范式（接力、辩论）有利于从中央 𝑎𝑔𝑒𝑛𝑡1 产生更长的世代。另一方面，在我的设置中，所有三个 QA 任务似乎并不具有这一特征。这表明生成任务比多项选择和提取式 QA 任务更容易受到对话结构变化的影响（关于响应长度）。虽然这本身似乎没有问题，但需要量化代理之间不平衡的生成长度的影响。产生较长响应的代理可能对最终决策产生更大的影响。因此，他们可以垄断讨论，掩盖其他代理人的见解[51]。在实验的下一部分中，我将提供有关垄断的进一步见解。

图 8 显示了代理的响应长度、提取的解决方案的长度以及同意每个响应消息的代理数量（ETPC、XSum、简单道德问题、WMT19）之间的 Spearman 等级相关性 [50]。我报告 p 值以表明统计显着性。附录 F 的图 25 和图 24 报告了其他数据集的相关性。相关矩阵显示响应长度和解的长度之间存在明显的相关性。这是有道理的，因为更长的解决方案也会导致包含它的消息更长。更重要的是，我观察到大多数任务的响应/解决方案长度与响应的一致率之间几乎没有相关性。这意味着代理不太可能同意对解决方案的冗长解释，而是在表示满意之前需要其他功能。这表明孙等人所描述的讨论垄断的风险。 [51]在这种情况下，代长度并不普遍明显。然而，XSum 数据集与其他结果的不同之处在于，响应和解决方案的长度与达成一致的代理数量之间存在较小但具有统计显着性的相关性（0.17 和 0.13）。代理人似乎更有可能同意较长的摘要和对拟议摘要的解释。尽管 XSum 的任务指令提示特别包括将文本摘要为单个句子（附录 G），但较长的摘要提供了更多空间来满足所有代理的偏好。因此，生成较长文本作为响应的代理比保持句子简短的代理更具优势。我在此支持 Sun 等人提出的垄断假设。 [51]对于总结任务，因为我的工作将代理的响应长度确定为影响垄断的关键因素。我强调，未来的工作可以研究可能促进垄断的其他因素。兴趣点可以是独裁者角色或其他集中决策机制。关于角色和范式的响应长度的发现有助于促进进一步的研究，这些研究旨在实现马尔可夫决策过程中相当平衡的讨论和顺序决策[21, 72]。

在这里插入图片描述

图 8. Spearman 在数据集 ETPC、XSum、Simple Ethical Questions 和 WMT19 (de-en) 上的排名相关性 [50]。相关值是代理的响应长度（通过令牌计数来衡量）、从响应中提取的解决方案的长度以及在发送消息后立即同意代理的数量。我报告 p 值以表明统计显着性。

我评估了讨论中的总标记与图 9 (a) 中的任务绩效之间的相关性。我对图 9 (b) 中每条消息的平均标记执行相同的操作。两个散点图均针对 XSum 数据集和内存范例。 x 轴显示讨论期间生成的令牌总数（图 9 (a)）或每条消息的平均令牌数（图 9 (b)）。 Y 轴报告每次讨论的评估分数。我在附录 F 中包含了其他生成任务和范式的数据。散点图显示，代理响应的平均长度和总体讨论中贡献的标记数量对任务绩效影响很小。这种趋势（在所有生成任务和范式上都可见）可归因于较长的讨论导致平均得分较差（表 5）。因此，回归线的倾斜是预期的，并且可以作为我之前提出的主张的额外支持。进一步的工作应该考虑表 6 和表 7 中描述的代理，在更细粒度的水平上评估各个代理的响应长度。

在这里插入图片描述

图 9. XSum 性能与 (a) 每次讨论期间生成的令牌总数和 (b) 每次讨论中每条消息的平均令牌数的相关性。这些图表显示了所有数据集和范式的相似趋势，如附录 F 所示。

5.3.2 Takeaways

(1) 专家角色有利于复杂的任务，例如战略规划或道德质量保证。
(2)专家角色可以提高生成文本的词汇多样性。
(3)范式中的中心代理在解决生成任务时提供更长的贡献。
(4) 通过较长的响应来进行讨论垄断对于总结等任务来说是一种风险。

6 Epilogue

6.1 Conclusion

在这项工作中，我通过调查最近的文献并提出一个全面的分类法，设计了多主体LLM领域。考虑到我对 2022 年至 2024 年期间的 20 篇论文进行了分类，我提出了 MALLM，这是一个对多智能体LLM进行对话问题解决研究的框架。 MALLM可以控制代理、讨论格式和决策，以研究多代理对话的过程和结果。我进行了一系列关于讨论范式的有效性、任务绩效的影响因素以及多智能体对话的内在特征的实验。为了总结这项工作的发现，我回到提出的研究问题。

哪些讨论范式比单一LLM更有效？在跨所有范例的 StrategyQA 等复杂任务中，多代理系统的性能优于具有 CoT 的单一模型。然而，多智能体讨论的复杂性降低了翻译等基本任务的性能，因为多个智能体很容易受到问题漂移的影响。因此，多智能体系统在复杂场景中显示出其优势，不应该被用来解决基本任务。通过研究各个范式，我发现代理之间的信息访问对于产生道德上更加一致的答案起着至关重要的作用。这解释了多智能体系统如何促进更一致、更安全的生成人工智能系统的开发。

多智能体讨论期间哪些因素影响任务绩效？ 我确定了影响多代理对话的过程和结果的两个主要因素：讨论长度和代理。首先，我发现讨论的长度对任务绩效起着重要作用。大多数多智能体讨论在前三轮内达成共识，并且通常在第一轮后就已经达成共识，这表明智能体非常同意。因此，提供对代理之间信息的完全访问的讨论范例有助于更快地达成共识，同时实现类似的性能。此外，我还解释了道德一致性崩溃，它描述了如果代理人长时间讨论道德问题，他们将如何偏离他们通常的道德价值观。值得注意的是，战略 QA 是唯一受益于长时间讨论的任务，因为代理能够利用更多轮次来进行复杂的规划和额外的推理步骤。

其次，我发现个体代理在任务绩效中发挥着至关重要的作用。具体来说，具有专家角色的代理只会提高战略 QA 或道德 QA 等复杂任务的绩效。我发现在讨论范式中处于中心地位的智能体在解决生成性任务时比其他智能体产生更长的响应。我表明，个体代理较长的响应长度可能会导致对摘要等选定任务的讨论的垄断。这引发了人们对多智能体讨论是否能够进行相当平衡的决策过程的担忧。

LLM代理之间的讨论有什么特点？ 我表明，多智能体系统会更长时间地讨论更困难的示例，这表明通过迭代共识做出决定的系统可以适应问题的复杂性。专家角色还可以提高生成文本的词汇多样性。这可以用于创造性写作等受益于这种多样化文本的任务。多代理 LLM 不会影响系统在抽取式 QA 期间检测无法回答的问题的能力。

总的来说，我提供了一项复杂的研究，探讨多代理LLM可以在哪些方面提高最先进的表现，以及他们的能力在哪些方面乏善可陈。通过探索多智能体系统的当代局限性，我解释了采用多智能体LLM的好处，以及需要进一步研究以确保这些系统的可靠性和安全性。

6.2 Future Work

研究结果为进一步研究提供了多个方向。这项工作表明，多代理系统为复杂任务提供了最大的好处。因此，我将解决复杂问题的多主体LLM视为一个有利的研究分支。未来的工作可以测试更多复杂性更高的多任务数据集 [19, 62] 并研究如何进一步提高性能。通过进一步研究多代理LLM在复杂场景中的能力，可能会出现该技术的其他应用，例如，以证据作为背景知识来帮助解决刑事案件[56]。对齐崩溃对多智能体系统的安全构成重大风险。考虑到这些系统可能在不久的将来向公众推出，需要提出专门为多智能体应用程序设计的安全模块。由于我发现报告范式在响应中提供了更好的一致性，因此我建议加入一个集中的安全代理，以确保讨论在人类道德价值观的范围内展开。另一个探索的方向可能是纳入安全宪法，以提高规划阶段的安全性[23]。

各个代理生成或多或少的文本，具体取决于他们在讨论范式中的位置和他们提示的角色。我表明，这可能会导致长时间响应的智能体垄断摘要任务的讨论。这些个体代理对多代理系统的影响程度仍然是一个悬而未决的问题。即将到来的研究应该探索一种架构，为每个代理提供相同的机会来贡献他们独特的想法，无论沟通方案或他们的角色如何。同时，应探索可能导致垄断的其他特征（例如，复杂的词汇和独裁角色）。最后，我强调需要对多主体LLM进行对话式问题解决的额外实证研究，可能采用 MALLM 作为框架。这项工作的重点是讨论的过程和结果，调查各种沟通方案以及讨论长度等其他影响因素。进一步的研究还应该调查我在分类学中设计的其他两个组成部分：代理和决策。额外的工作可以调查其他类型的角色对任务绩效的影响，例如个性[47]。可以测试其他决策机制，例如投票[69]或一致性[61]，以量化其特定任务的收益。总体而言，这些研究方向为未来的多种工作提供了输入，这些工作可以调查和扩展多代理LLM所提供的分类法。

6.3 Limitations

正如我的分类法（第 3 节）中所述，多代理LLM领域包括多种类型的代理、讨论格式和决策协议。由于这项工作的范围主要是调查讨论如何展开，我无法评估促进多智能体讨论结果的所有参数。代理数量或参与角色类型等因素可能会影响结果。这就是为什么我在第 4 节和附录 A 中透明地报告了我们研究中使用的所有参数。此外，我提供了 MALLM 框架和实验的源代码，以便其他研究人员可以遵循该过程或自行对其他参数进行实验。由于计算资源有限，我对原始数据集的子集进行了采样来进行实验。由于子集的结果可能无法完全代表整个语料库，因此我在 4.2 节中提供了如何通过置信区间对数据集进行采样的彻底推理。此外，我还提供了对数据的随机子集进行的五次实验之间的标准差，以表明结果的代表性。

以上内容全部使用机器翻译，如果存在错误，请在评论区留言。欢迎一起学习交流！

郑重声明：

本文内容为个人对相关文献的分析和解读，难免存在疏漏或偏差，欢迎批评指正；
本人尊重并致敬论文作者、编辑和审稿人的所有劳动成果，若感兴趣，请阅读原文并以原文信息为准；
本文仅供学术探讨和学习交流使用，不适也不宜作为任何权威结论的依据。
如有侵权，请联系我删除。xingyezn@163.com