集体的智慧：从孤立到协作，大模型多智能体协同使复杂任务迎刃而解

agentUniverse

已于 2024-05-08 16:10:29 修改

阅读量4.6k

点赞数 29

文章标签： ai 开源大数据架构

于 2024-05-08 16:06:38 首次发布

本文链接：https://blog.csdn.net/OceanBaseDev/article/details/138574428

版权

“于是乎，使用者默默充当起这些孤立无援的智能体的指挥官：以金融分析师为例，他们不得不一会儿用 reportify 解读一下上市公司的研报，一会儿又打开 Kimi 搜集一下最新的行业信息，最终统统贴到chatgpt 里，以便生成一篇尚可接受的分析报告草稿。”

如今，我们可以通过蚂蚁自研的 agentUniverse 多智能体框架，优雅地让不同角色的智能体相互协同，集体为分析师服务。其中一些智能体协同模式，经过蚂蚁在金融分析领域长时间的探索实践，在复杂任务上表现出令人兴奋的提升。
agentUniverse 多智能体框架项目地址：

https://github.com/alipay/agentUnivers
https://gitee.com/agentUniverse/agentUniverse

美好的幻像与孤立无援的智能体

大模型是否能直接解决复杂任务？
长久以来，人们致力于运用计量金融、量化分析等手段，试图让机器胜任金融分析这一世界上最具挑战的任务。然而人类专家始终占据着一席之地：主观分析师们以一种无法被机器复制的直觉和洞察力、以近乎神秘的方式，在庞大的信息流中进行分析决策。**这似乎本应是大模型最为擅长的领域。**掌握海量的文字信息、人类无法企及的知识规模，理应有更优秀的表现。

图一：金融主观分析是一个高度复杂的任务
（prompt：用漫画平面线条画风，描绘金融主观分析师们以一种近乎神秘的方式，在海量的信息中进行分析决策，体现出分析的复杂性）
然而实践却并不如人意，即便是最强的模型，也仅能给出泛泛而谈的分析，往往空洞、缺少重点、有逻辑瑕疵、忽略重要事实。
究其原因，大模型本质是语言模型，是参数化的知识容器，虽然能完成简单的单步推理，在需要复杂（多步）推理的任务中有很大概率失败，也容易在知识引用、知识不足、知识冲突等情况中出现幻觉。
于是人们尝试通过提示词（prompt）来赋予大模型角色和目的，并配套相应的工具，使得它们可以搜索互联网、调用 api，具有持续记忆能力，并综合利用这些能力完成任务。这一切构成了智能体（agent）。区别于大模型这类被动的无状态的对话机器（query-answer machine），智能体在复杂任务上的表现更好，且越来越受到业界关注。

图二：基于长时间的思考和沉淀，我们给出了智能体（agent）的基本构成定义
然而，就像人类难以同时胜任所有任务，智能体也一样。
越是复杂的专业任务，越是不可避免地涉及更多环节、更多的领域知识、更多的思考角度。强行要求大模型智能体一次性、顺利地完成所有环节，只有极小的成果概率。如果强行对单一智能体赋予过多的能力，急剧上升的复杂度会让其难以驾驭，从而降低实用价值，最终只剩理论上的应用可能。
于是乎，使用者默默充当起这些孤立无援的智能体的指挥官：以金融分析师为例，他们不得不一会儿用 reportify 解读一下上市公司的研报，一会儿又打开 NewBing 搜集一下最新的行业信息，最终统统贴到 chatgpt 里，以便生成一篇尚可接受的分析报告草稿。

图三：慌乱无措的单一智能体使用者
这一切应有更优雅的方式。

集体的智慧

如亚里士多德所述，人类是社会性动物，这一特性引领着我们的智人祖先，通过精心构建的社会组织与协作模式，而非依赖个体蛮力或敏捷，最终成为地球的顶级掠食者。
自原始社会伊始，当人类面临的挑战愈发复杂，社会结构亦随之适应和演化：角色分工愈发细化，协作模式日益丰富，使得人类能更加有效地应对复杂多样的问题，进而推动文明的整体进程。
更进一步，不同类型的复杂问题，也需要采取不同的协作模式应对。比如：

**团队合作（Teamwork）模式，**重视技能互补、开放沟通与共担责任，适合最终目标明确、但过程复杂、需涉及不同领域知识的任务；
**层级合作（Hierarchical Collaboration）模式，**依靠上级对任务的拆解、细化与分派，同时要求下级对命令有高度的责任和严格的遵从；
**师徒传承（Master-Disciple Inheritance）模式，**适合高度依赖于既有成熟经验（如 SOP）、可以按部就班的任务。

这些协作模式让人类集体的力量远超于任何个体。显然，对于智能体也是如此。
借鉴人类社会发展出的各种成熟的组织关系和协作模式，对那些能力单一、孤立无援、但表现稳定的智能体进行协作编排，便能利用集体的智慧，创造出 1+1>2 的效果。

图四：多智能体协同的集体智慧
这需要一套强大成熟、同时又不失便利的机制来实现。

agentUniverse，面向产业落地的企业级大模型多智能体框架

蚂蚁自研的 agentUniverse 正是这个机制的实践者。
agentUniverse 是一个大模型多智能体框架。核心提供了多智能体协作编排组件，它相当于一个模式工厂（pattern factory），允许开发者对多智能体协作模式进行开发定制，同时附带了搭建单一智能体的全部关键组件。开发者可以基于本框架轻松构建多智能体应用，并通过社区对不同领域的模式（pattern）实践进行交流共享。

图五：agentUniverse 的架构设计
框架预置有若干已在真实产业中验证有效的多智能体协作模式组件。其中，“PEER” 是最具特色的模式之一。

**PEER 模式：**该模式通过计划（Planning）、执行（Executing）、表达（Expressing）、评价（Reviewing）四个不同职责的智能体，实现对复杂问题的多步拆解、分步执行，并基于评价反馈进行自主迭代，最终提升推理分析类任务表现。这一模式显著适用于需要多步拆解、深度分析的场景，比如对于事件的解读、宏中观经济分析、商业方案的可行性分析等。

图六：PEER 多智能体协同模式
PEER 模式本质上是层级合作（Hierarchical Collaboration）和团队合作（Teamwork）的组合：计划智能体（Plan）充当了领导角色，将原本的复杂问题，拆解出多个需要分别执行的子任务。其余三个智能体各有所长，同时在工作流程上前后依赖，工作结果依次传递，避免了资源竞争。最后的工作结果，传递回 “领导”进行决策，判断是已经完成任务、或是需要补充优化、还是推翻重做。
PEER 模式是解决推理分析类任务的一把利刃。
我们将通过一个典型的金融分析问题，“分析巴菲特减持比亚迪的原因”，来看下如何通过 agentUniverse 搭建起一组 PEER 模式的多智能体，以及这些智能体是怎样解决复杂问题的。
计划智能体（Planning）

开发者在 planning_agent.yaml 模版中填写相应配置，即可生成计划智能体。其中，最重要的部分，是填写计划智能体生成计划的方式。在本例中，我们希望计划智能体将原始问题拆分为 5-10 个可被独立解答的子问题。这里我们可以看到，计划智能体产出了如下 9 个子问题：

执行智能体（Executing）

我们用同样的方式生成执行智能体。在 executing_agent.yaml 中，我们为执行智能体提供了网络搜索工具search_tool，以及包含巴菲特相关信息的知识库 financial_general_knowledge_base 。9 个子问题将被传递给执行智能体，分别得到与每个子问题有关的信息（部分展示）：

表达智能体（Expressing）

对于表达智能体，我们配置的主要内容是表达结果的规则与格式。如本例中，我们在 expressing_agent.yaml 中要求表达结果以分总结构呈现，且不可使用模糊的词语。基于此，表达智能体将使用前一步骤收集的 9 个子问题的相关信息，围绕 “分析巴菲特减持比亚迪的原因” 这一原始问题，生成一篇符合要求的分析结果：

评价智能体（Reviewing）

最终，评价智能体将基于 reviewing_agent.yaml 中预设的打分标准对表达结果进行评价。在该例中，评价智能体认为表达结果能够从多方面阐释巴菲特减持的原因，是有效的答案，应当予以通过：

以下是在 PEER 模式下，针对 “分析巴菲特减持比亚迪的原因”，多智能体协同工作后给出的最终分析结果：

令人兴奋的效果

除了 “分析巴菲特减持比亚迪的原因” 这类实际业务分析场景中所呈现出的效果提升，我们还针对多项典型测评设计了精准的实验。
在 GAME24 综合测试集，我们着重对比了 PEER 模式与 COT、TOT 以及累积推理（Cumulative Reasoning, CR）的解题效果：

方法	准确率 (%)	平均轮数
CoT	4.0	1
CoT-SC (k = 100)	9.0	100
ToT (b = 5)	74	61.72
CR (b = 1)	84	11.68
CR (b = 2)	94	13.70
CR (b = 3)	97	14.25
CR (b = 4)	97	14.77
CR (b = 5)	98	14.86
PEER (b = 1)	99	4.12

对比实验显示，PEER 模式在 GAME24 问题上的性能显著优于 ToT、累积推理 (CR) 等方法。相较累积推理（CR），PEER 模式在并行分支为 1（b=1）的情况下，准确率从 84% 提高到 99%。同时，解题平均重试轮数也大幅减少。这表明 PEER 模式在解决 GAME24 问题时更加高效和准确。这一结果强调了 PEER 模式在处理复杂问题时的有效性，尤其是在需要逐步分解、分布决策的任务中。
在更广泛的推理测评集中，如 Folio wiki、MATH、Titanic 等，PEER 均有相当优异的表现。
在蚂蚁内部，金融分析师已开始广泛使用基于 agentUniverse 框架 + PEER 模式搭建的投研支小助 AI 智能助手，辅助每日热点事件解读、市场分析和周期性报告撰写，整体效率提升超过 50%，采纳率达 70% 以上。

与开发者同舟，与行业共济

当然，在某些情况下，我们还不总能让它们可靠地维持最佳表现。智能体之间的协同方式、协同效率，需要基于产业场景持续探索与提升。我们希望与开发者和行业一起，持续参与 AI 智能体探索，不仅提升金融专家的个人效率，还能辐射千行百业，推动产业智能化转型。这亦是我们将 agentUniverse 项目开放的初衷。
目前，python 开发者可以通过命令 pip install agentUniverse 安装本框架：

近期，我们将对 agentUniverse 多智能体框架项目开源，我们将以开放包容的社区氛围欢迎开发者加入，敬请期待。
May the OpenSouce force be with you. **
（陈鸿对本文亦有贡献）
🤩关于 agentUniverse 多智能体框架的更多信息，欢迎关注公众号「agentUniverse 智多星」**
AgentUniverse 多智能体框架现已开源，欢迎开发者朋友们体验、共建。

https://github.com/alipay/agentUnivers
https://gitee.com/agentUniverse/agentUniverse