集体的智慧:从孤立到协作,大模型多智能体协同使复杂任务迎刃而解

“于是乎,使用者默默充当起这些孤立无援的智能体的指挥官:以金融分析师为例,他们不得不一会儿用 reportify 解读一下上市公司的研报,一会儿又打开 Kimi 搜集一下最新的行业信息,最终统统贴到chatgpt 里,以便生成一篇尚可接受的分析报告草稿。”

如今,我们可以通过蚂蚁自研的 agentUniverse 多智能体框架,优雅地让不同角色的智能体相互协同,集体为分析师服务。其中一些智能体协同模式,经过蚂蚁在金融分析领域长时间的探索实践,在复杂任务上表现出令人兴奋的提升。
agentUniverse 多智能体框架项目地址:

  • https://github.com/alipay/agentUnivers
  • https://gitee.com/agentUniverse/agentUniverse

美好的幻像与孤立无援的智能体

大模型是否能直接解决复杂任务?
长久以来,人们致力于运用计量金融、量化分析等手段,试图让机器胜任金融分析这一世界上最具挑战的任务。然而人类专家始终占据着一席之地:主观分析师们以一种无法被机器复制的直觉和洞察力、以近乎神秘的方式,在庞大的信息流中进行分析决策。**这似乎本应是大模型最为擅长的领域。**掌握海量的文字信息、人类无法企及的知识规模,理应有更优秀的表现。

图一:金融主观分析是一个高度复杂的任务
(prompt:用漫画平面线条画风,描绘金融主观分析师们以一种近乎神秘的方式,在海量的信息中进行分析决策,体现出分析的复杂性)
然而实践却并不如人意,即便是最强的模型,也仅能给出泛泛而谈的分析,往往空洞、缺少重点、有逻辑瑕疵、忽略重要事实。
究其原因,大模型本质是语言模型,是参数化的知识容器,虽然能完成简单的单步推理,在需要复杂(多步)推理的任务中有很大概率失败,也容易在知识引用、知识不足、知识冲突等情况中出现幻觉。
于是人们尝试通过提示词(prompt)来赋予大模型角色和目的,并配套相应的工具,使得它们可以搜索互联网、调用 api,具有持续记忆能力,并综合利用这些能力完成任务。这一切构成了智能体(agent)。区别于大模型这类被动的无状态的对话机器(query-answer machine),智能体在复杂任务上的表现更好,且越来越受到业界关注。

图二:基于长时间的思考和沉淀,我们给出了智能体(agent)的基本构成定义
然而,就像人类难以同时胜任所有任务,智能体也一样。
越是复杂的专业任务,越是不可避免地涉及更多环节、更多的领域知识、更多的思考角度。强行要求大模型智能体一次性、顺利地完成所有环节,只有极小的成果概率。如果强行对单一智能体赋予过多的能力,急剧上升的复杂度会让其难以驾驭,从而降低实用价值,最终只剩理论上的应用可能。
于是乎,使用者默默充当起这些孤立无援的智能体的指挥官:以金融分析师为例,他们不得不一会儿用 reportify 解读一下上市公司的研报,一会儿又打开 NewBing 搜集一下最新的行业信息,最终统统贴到 chatgpt 里,以便生成一篇尚可接受的分析报告草稿。

图三:慌乱无措的单一智能体使用者
这一切应有更优雅的方式。

集体的智慧

如亚里士多德所述,人类是社会性动物,这一特性引领着我们的智人祖先,通过精心构建的社会组织与协作模式,而非依赖个体蛮力或敏捷,最终成为地球的顶级掠食者。
自原始社会伊始,当人类面临的挑战愈发复杂,社会结构亦随之适应和演化:角色分工愈发细化,协作模式日益丰富,使得人类能更加有效地应对复杂多样的问题,进而推动文明的整体进程。
更进一步,不同类型的复杂问题,也需要采取不同的协作模式应对。比如:

  • **团队合作(Teamwork)模式,**重视技能互补、开放沟通与共担责任,适合最终目标明确、但过程复杂、需涉及不同领域知识的任务;
  • **层级合作(Hierarchical Collaboration)模式,**依靠上级对任务的拆解、细化与分派,同时要求下级对命令有高度的责任和严格的遵从;
  • **师徒传承(Master-Disciple Inheritance)模式,**适合高度依赖于既有成熟经验(如 SOP)、可以按部就班的任务。

这些协作模式让人类集体的力量远超于任何个体。显然,对于智能体也是如此。
借鉴人类社会发展出的各种成熟的组织关系和协作模式,对那些能力单一、孤立无援、但表现稳定的智能体进行协作编排,便能利用集体的智慧,创造出 1+1>2 的效果。

图四:多智能体协同的集体智慧
这需要一套强大成熟、同时又不失便利的机制来实现。

agentUniverse,面向产业落地的企业级大模型多智能体框架

蚂蚁自研的 agentUniverse 正是这个机制的实践者。
agentUniverse 是一个大模型多智能体框架。核心提供了多智能体协作编排组件,它相当于一个模式工厂(pattern factory),允许开发者对多智能体协作模式进行开发定制,同时附带了搭建单一智能体的全部关键组件。开发者可以基于本框架轻松构建多智能体应用,并通过社区对不同领域的模式(pattern)实践进行交流共享。

图五:agentUniverse 的架构设计
框架预置有若干已在真实产业中验证有效的多智能体协作模式组件。其中,“PEER” 是最具特色的模式之一。

  • **PEER 模式:**该模式通过计划(Planning)、执行(Executing)、表达(Expressing)、评价(Reviewing)四个不同职责的智能体,实现对复杂问题的多步拆解、分步执行,并基于评价反馈进行自主迭代,最终提升推理分析类任务表现。这一模式显著适用于需要多步拆解、深度分析的场景,比如对于事件的解读、宏中观经济分析、商业方案的可行性分析等。


图六:PEER 多智能体协同模式
PEER 模式本质上是层级合作(Hierarchical Collaboration)团队合作(Teamwork)的组合:计划智能体(Plan)充当了领导角色,将原本的复杂问题,拆解出多个需要分别执行的子任务。其余三个智能体各有所长,同时在工作流程上前后依赖,工作结果依次传递,避免了资源竞争。最后的工作结果,传递回 “领导”进行决策,判断是已经完成任务、或是需要补充优化、还是推翻重做。
PEER 模式是解决推理分析类任务的一把利刃。
我们将通过一个典型的金融分析问题,“分析巴菲特减持比亚迪的原因”,来看下如何通过 agentUniverse 搭建起一组 PEER 模式的多智能体,以及这些智能体是怎样解决复杂问题的。
计划智能体(Planning)

开发者在 planning_agent.yaml 模版中填写相应配置,即可生成
计划智能体
。其中,最重要的部分,是填写计划智能体生成计划的方式。在本例中,我们希望计划智能体将原始问题拆分为 5-10 个可被独立解答的子问题。这里我们可以看到,计划智能体产出了如下 9 个子问题:

执行智能体(Executing)

我们用同样的方式生成执行智能体。在 executing_agent.yaml 中,我们为执行智能体提供了网络搜索工具search_tool,以及包含巴菲特相关信息的知识库 financial_general_knowledge_base 。9 个子问题将被传递给执行智能体,分别得到与每个子问题有关的信息(部分展示):

表达智能体(Expressing)

对于表达智能体,我们配置的主要内容是表达结果的规则与格式。如本例中,我们在 expressing_agent.yaml 中要求表达结果以分总结构呈现,且不可使用模糊的词语。基于此,表达智能体将使用前一步骤收集的 9 个子问题的相关信息,围绕 “分析巴菲特减持比亚迪的原因” 这一原始问题,生成一篇符合要求的分析结果:

评价智能体(Reviewing)

最终,评价智能体将基于 reviewing_agent.yaml 中预设的打分标准对表达结果进行评价。在该例中,评价智能体认为表达结果能够从多方面阐释巴菲特减持的原因,是有效的答案,应当予以通过:

以下是在 PEER 模式下,针对 “分析巴菲特减持比亚迪的原因”,多智能体协同工作后给出的最终分析结果:

令人兴奋的效果

除了 “分析巴菲特减持比亚迪的原因” 这类实际业务分析场景中所呈现出的效果提升,我们还针对多项典型测评设计了精准的实验。
在 GAME24 综合测试集,我们着重对比了 PEER 模式与 COT、TOT 以及累积推理(Cumulative Reasoning, CR)的解题效果:

方法准确率 (%)平均轮数
CoT4.01
CoT-SC (k = 100)9.0100
ToT (b = 5)7461.72
CR (b = 1)8411.68
CR (b = 2)9413.70
CR (b = 3)9714.25
CR (b = 4)9714.77
CR (b = 5)9814.86
PEER (b = 1)994.12

对比实验显示,PEER 模式在 GAME24 问题上的性能显著优于 ToT、累积推理 (CR) 等方法。相较累积推理(CR),PEER 模式在并行分支为 1(b=1)的情况下,准确率从 84% 提高到 99%。同时,解题平均重试轮数也大幅减少。这表明 PEER 模式在解决 GAME24 问题时更加高效和准确。这一结果强调了 PEER 模式在处理复杂问题时的有效性,尤其是在需要逐步分解、分布决策的任务中。
在更广泛的推理测评集中,如 Folio wiki、MATH、Titanic 等,PEER 均有相当优异的表现。
在蚂蚁内部,金融分析师已开始广泛使用基于 agentUniverse 框架 + PEER 模式搭建的投研支小助 AI 智能助手,辅助每日热点事件解读、市场分析和周期性报告撰写,整体效率提升超过 50%,采纳率达 70% 以上。

与开发者同舟,与行业共济

当然,在某些情况下,我们还不总能让它们可靠地维持最佳表现。智能体之间的协同方式、协同效率,需要基于产业场景持续探索与提升。我们希望与开发者和行业一起,持续参与 AI 智能体探索,不仅提升金融专家的个人效率,还能辐射千行百业,推动产业智能化转型。这亦是我们将 agentUniverse 项目开放的初衷。
目前,python 开发者可以通过命令 pip install agentUniverse 安装本框架:

近期,我们将对 agentUniverse 多智能体框架项目开源,我们将以开放包容的社区氛围欢迎开发者加入,敬请期待。
May the OpenSouce force be with you. **
(陈鸿对本文亦有贡献)
🤩关于
agentUniverse 多智能体框架的更多信息,欢迎关注公众号「agentUniverse 智多星」**
AgentUniverse 多智能体框架现已开源,欢迎开发者朋友们体验、共建。

  • https://github.com/alipay/agentUnivers
  • https://gitee.com/agentUniverse/agentUniverse
  • 27
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值