【LLM-agent】利用混合agent来增强大语言模型能力

最新推荐文章于 2025-04-03 14:13:56 发布

程序猿李巡天

最新推荐文章于 2025-04-03 14:13:56 发布

阅读量1.2k

点赞数 8

文章标签：语言模型人工智能自然语言处理 prompt 知识图谱 5G 开源

本文链接：https://blog.csdn.net/m0_59235945/article/details/140218583

版权

一、结论写在前面

论文标题：Mixture-of-Agents Enhances Large Language Model Capabilities

论文链接：https://arxiv.org/pdf/2406.04692

随着LLMs数量的增加，如何利用多个LLMs的集体专业知识成为一个令人兴奋的开放方向。

为此，论文提出了一种新方法，通过混合agent（Mixture-of-Agents， MoA）方法论来利用多个LLMs的集体优势。在论文的方法中，论文构建了一个分层的MoA架构，其中每一层包含多个LLMagent。每个agent将前一层所有agent的输出作为辅助信息来生成其响应。

MoA模型在AlpacaEval 2.0、MT-Bench和FLASK上达到了最先进的性能，超越了GPT-4 Omni。例如，论文仅使用开源LLMs的MoA在AlpacaEval 2.0上以显著差距领先，得分为65.1%，相比之下GPT-4 Omni为57.5%。此外，论文提供了关于改进MoA设计的见解；系统优化MoA架构是未来工作的一个有趣方向。

论文提出的方法需要迭代聚合模型响应，这意味着模型在到达最后一个MoA层之前无法决定第一个token。这可能导致高Time to First Token（TTFT），从而可能对用户体验产生负面影响。为缓解此问题，论文可以限制MoA层的数量，因为第一次响应聚合对生成质量的提升最为显著。

二、论文的简单介绍

2.1 论文的背景

尽管当前存在众多LLMs及其令人印象深刻的成就，它们仍面临模型大小和训练数据方面的固有限制。进一步扩大这些模型的规模成本极高，通常需要对数万亿个token进行广泛的重训练。

与此同时，不同的语言模型（LLMs）各自拥有独特的优势，并在各种任务方面展现出专业性。例如，有些模型在遵循复杂指令方面表现出色，而其他模型可能在代码生成方面更为擅长。不同语言模型间技能的多样性引发了一个有趣的问题：论文能否整合多个语言模型的集体专长，打造一个更为强大和稳健的模型？

论文对这一问题的回答是肯定的。论文发现了一个论文称之为语言模型合作性的内在现象——即当一个语言模型接收到其他模型的输出时，即使这些其他模型本身能力较弱，该模型也能生成更优质的回复。图1展示了6种流行语言模型在AlpacaEval 2.0基准测试上的合作胜率。

图2：混合agent结构示意图。本例展示了4个MoA层，每层包含3个agent。这些agent可以共享同一模型

当这些模型被提供由这些模型独立生成的答案时，它们的LC胜率显著提高。这表明了协作现象在大型语言模型中是普遍存在的。值得注意的是，即使由其他模型提供的辅助响应质量低于单个大型语言模型能够独立生成的质量，这种改进仍然存在。

基于这一发现，本文介绍了一种混合agent(MoA)方法论，利用多个大型语言模型来迭代提高生成质量。图2说明了MoA的结构。最初，第一层中的agent独立生成对给定提示的响应。然后，这些响应被提供给下一层的agent(可以重用第一层中的模型)以进一步完善。这个迭代完善过程持续进行几个周期，直到获得更加健壮和全面的响应。

图1：AlpacaEval 2.0 LC胜率在提供其他模型的响应时有所提高

2.2 混合agent方法论

这里论文将介绍论文提出的利用多个模型以实现性能提升的方法论。论文首先展示了大语言模型（LLMs）具有协作性，因此可以根据其他模型的输出改进其响应。随后，论文引入混合agent方法论并讨论其设计含义。

2.2.1 大语言模型的协作性

论文首先展示大语言模型的协作性，特别是它们在能够参考其他模型的输出时生成更高质量响应的能力。正如论文在引言和图1中所展示的，当今许多可用的大语言模型都表现出这种协作能力。

从多个大语言模型的协作中提取最大效益的一个重要途径是，了解不同模型在协作的各个方面擅长什么。在协作过程中，论文可以将大语言模型分为两个不同的角色：

提议者(Proposers)擅长为其他模型生成有用的参考响应。一个好的提议者可能不一定能自行产生高分响应，但它应该提供更多背景和多样化的视角，最终在使用聚合器时为更好的最终响应做出贡献。

聚合器(Aggregators)是擅长将其他模型的响应综合成单一高质量输出的模型。一个有效的聚合器即使在整合质量低于自身的输入时，也应保持或增强输出质量。

具体而言，论文展示了众多大型语言模型（LLMs）同时具备作为聚合者和提议者的能力，而某些模型则在特定角色上表现出专业技能。GPT-4o、Qwen1.5、LLaMA-3作为多才多艺的模型，在协助和聚合任务中均表现出色。相比之下，WizardLM在作为提议者模型时表现卓越，但在聚合其他模型的响应方面则显得力不从心。

鉴于聚合者能够通过借鉴其他模型的输出产生更高质量的响应，论文提议通过引入额外的聚合者来进一步增强这种协作潜力。一个直观的想法是复制这一练习，使用多个聚合者——首先由几个聚合者汇聚更佳答案，然后再次聚合这些已聚合的答案。通过在过程中融入更多聚合者，论文可以迭代地综合和提炼响应，利用多个模型的优势以产生更优的结果。这导致了论文提出的混合agent（Mixture-of-Agents）的设计。

2.2.2 混合agent（Mixture-of-Agents）

MoA的结构如图2所示。它具有l层，每层i包含n个LLMs。值得注意的是，LLMs可以在同一层内或跨不同层重复使用。当一层中许多LLMs相同时，这种配置导致了一种特殊结构，对应于一个模型生成多个可能不同的输出（由于温度采样的随机性）。论文将此设置称为单一提议者，其中只有稀疏子集的模型被激活。

在此，每个LLM处理输入文本并生成其延续。论文的方法无需任何微调，仅利用LLMs的提示和生成接口。

实际上，论文无需连接提示和所有模型响应，因此在最后一层仅需使用一个LLM。因此，论文使用第1层LM的输出作为最终输出，并据此评估指标。

表1：Aggregate-and-Synthesize提示，用于整合来自其他模型的响应

2.2.3 与专家混合模型(Mixture-of-Experts)的类比

专家混合模型(MoE)是机器学习中一种突出且成熟的技巧，其中多个专家网络专长于不同的技能集。MoE方法已在各种应用中显示出显著的成功，因其能够利用多样化的模型能力解决复杂问题。论文的MoA方法受此方法论启发。

典型的MoE（Mixture of Experts）设计包含一系列被称为MoE层的堆叠层。每个层包含一组n个专家网络以及一个门控网络，并包括残差连接以增强梯度流动。

从高层视角看，论文提出的MoA（Mixture of Aritists）框架通过在模型级别而非激活级别操作，将MoE概念扩展到模型级别。具体而言，论文的MoA方法利用大型语言模型（LLMs），完全通过提示接口运作，而不需要对内部激活或权重进行修改。这意味着，与MoE中在一个模型内拥有专门的子网络不同，论文跨不同层使用多个完全成熟的LLMs。需要注意的是，在论文的方法中，论文利用LLM整合了门控网络和专家网络的角色，因为LLMs的内在能力允许它们通过解释提示并生成连贯的输出来有效地规范输入，无需外部协调机制。

此外，由于这种方法仅依赖于现成模型固有的提示能力：(1) 它消除了与微调相关的计算开销；(2) 它提供了灵活性和可扩展性：论文的方法可以应用于最新的LLMs，无论其大小或架构如何。

2.3评估

本节全面评估了论文提出的MoA。论文的发现表明：

1.论文在AlpacaEval 2.0、MT-Bench和FLASK基准测试上取得了显著的改进。值得注意的是，仅使用开源模型，论文的方法在AlpacaEval 2.0和FLASK上超越了GPT-4o。

2.论文进行了广泛的实验，以更好地理解MoA的内部机制。

3.通过详细的预算分析，几种MoA的实现能够在性能上与GPT-4 Turbo相媲美，同时成本效益高出2倍。

表2：AlpacaEval 2.0和MT-Bench的结果。对于AlpacaEval 2.0，MoA和MoA-Lite分别对应6提议者中的3层和2层。MoA w/ GPT-4o表示在MoA中使用GPT-4o作为最终聚合器。论文的实验重复了三次，并报告了平均分数及标准差。表示论文对AlpacaEval结果的复制。论文自己运行了所有MT-Bench分数以获得基于回合的分数

2.3.1设置

基准测试论文主要在AlpacaEval 2.0（Dubois et al.， 2024）上评估模型，这是一个评估大型语言模型（LLMs）与人类偏好对齐的领先基准。它包含805个代表实际用例的指令。每个模型的响应直接与GPT-4（gpt-4-1106-preview）的响应进行比较，使用基于GPT-4的评估器来确定更倾向于评估模型的响应的可能性。为确保公平性，评估采用长度控制（LC）胜率，有效中止长度偏差。

此外，论文还在MT-Bench和FLASK上进行评估。MT-Bench使用GPT-4对模型的答案进行评分和评分。另一方面，FLASK提供了更细致的评估，具有12个特定技能的分数。

模型在本研究中，论文构建了默认的模型架构（MoA），仅使用开源模型以实现竞争性性能。所包含的模型有：Qwen1.5-110B-Chat、Qwen1.5-72B-Chat、WizardLM-8x22B、LLaMA-3-70B-Instruct、Mixtral-8x22B-v0.1、dbrx-instruct。

论文构建了3层MoA，并在每一层MoA中使用相同的一组模型。在最后一层中，论文使用Qwen1.5-110B-Chat作为聚合器。论文还开发了一个变体，称为MoA w/ GPT-4o，该变体通过在最终MoA层中使用GPT-4o作为聚合器，优先考虑高质量输出。另一个变体，MoA-Lite，强调成本效益。它使用与提案者相同的模型集，但仅包含2层MoA，并采用Qwen1.5-72B-Chat作为聚合器。这使得它在比GPT-4o更具成本效益的同时，在AlpacaEval 2.0上的质量提高了1.8%。论文严格遵守本研究中使用的所有模型的许可条款。对于开源模型，所有推理均通过Together Inference Endpoint运行。

2.3.2 基准测试结果

这里论文展示了在三个标准基准测试上的评估结果：AlpacaEval 2.0、MT-Bench和FLASK。选择这些基准测试是为了全面评估论文的方法性能，并与最先进的LLMs进行比较。

AlpacaEval 2.0 论文与领先的模型如GPT-4及其他最先进的开源模型进行了比较。详细结果展示在表2a中，论文的MoA方法在AlpacaEval 2.0排行榜上取得了顶尖位置，相较于之前的顶级模型GPT-4o，实现了惊人的8.2%绝对提升。

值得注意的是，论文的模型仅使用开源模型就超越了GPT-4o，从57.5%（GPT-4o）提升至65.1%（MoA），实现了7.6%的绝对改进。论文的MoA-Lite配置使用更少的层，更具成本效益。即便采用这种更轻量的方法，论文仍然超越了最佳模型1.8%，从57.5%（GPT-4o）提升至59.3%（MoA-Lite）。这进一步凸显了论文方法在充分利用不同计算预算下开源模型潜力的有效性。

MT-Bench 尽管在MT-Bench上对单个模型的改进相对较小，但考虑到当前模型在该基准上已经表现出色，这是可以理解的，因为单个模型本身就能获得超过9/10的分数。尽管改进微小，论文的方法仍然在排行榜上占据首位。这表明，即使在已经高度优化的基准上，论文的方法也能进一步推动边界，保持领先地位。

FLASK FLASK提供了对模型的细粒度评估。在这些指标中，MoA在几个关键方面表现出色。具体而言，与聚合器Qwen-110B-Chat的单模型分数相比，论文的方法在稳健性、正确性、效率、事实性、常识、洞察力和完整性方面显示出显著的改进。此外，MoA在正确性、事实性、洞察力、完整性和元认知方面也优于GPT-4 Omni。MoA表现不太好的一个指标是简洁性;模型生成的输出略显冗长。

图 3：在 FLASK 上的结果，论文采用 6 提议者 MoA 设置，Qwen1.5-110B-Chat 作为聚合器

2.3.3 混合agent模型为何表现优异？

这里论文进行实验，以更好地理解混合agent模型内部机制。论文总结了以下关键见解。

MoA倾向于整合最佳提议的答案。论文还通过类似BLEU的相似度分数比较了聚合器的响应与提议者的响应，该分数反映了n-gram重叠。在每个样本中，给定由提议者提出的个答案，论文计算个相似度分数与由基于GPT-4的评估器确定的个偏好分数之间的Spearman等级相关系数。图4中的结果确实证实了胜率与BLEU分数之间的正相关关系。论文还提供了使用Levenshtein相似度或TF-IDF而非BLEU分数的结果，见附录A。两种替代的文本相似度方法也与偏好分数呈现正相关。

MoA倾向于采纳最佳的提议答案。论文还通过诸如BLEU等相似性评分来比较聚合器的响应与提议者的响应，BLEU反映了n-gram的重叠程度。在每个样本中，给定提议者提出的n个答案，论文计算n个相似分数与基于GPT-4评估器确定的n个偏好分数之间的Spearman等级相关系数。图4的结果确实证实了胜率与BLEU分数之间存在正相关关系。论文还在附录A中提供了使用Levenshtein相似性(RapidFuzz， 2023)或TF-IDF而非BLEU分数的结果，这两种替代的文本相似性方法也与偏好分数产生了正相关。

图4：(a) 在6模型混合agent设置中，LC在AlpacaEval 2.0上的胜率与不同聚合器的关系。所有曲线使用相同的6个提议agent；它们仅在最终聚合器的选择上有所不同。LLM排名器使用Qwen1.5-110B-Chat模型，其提示格式见附录表5。GPT-4o模型仅用于评估目的的输出聚合，并不作为下一层的提议者参与。(b) 提出的输出胜率与BLEU分数（使用3-gram、4-gram和5-gram指标计算)之间的斯皮尔曼相关性

模型多样性和提议者数量的影响。论文分析了提议数量如何影响最终输出质量，通过改变n，即每层的提议者数量。论文在表3中展示了结果，发现得分随着n的增加而单调增加，反映了拥有更多辅助信息的益处。此外，论文还量化了使用多样化的LLM集合作为提议者的影响。

对于每个n，论文比较了两种设置：“单一提议者”，其中n个响应由同一LLM生成，温度为0.7；以及"多重提议者"，其中每个响应由不同的LLM生成。总体而言，使用多个不同的LLM始终产生更好的结果。这两种结果都表明，在每个MoA层中拥有更多样化的LLMagent可以提高性能。进一步扩展MoA的宽度是未来研究的一个有前景的方向。

模型在混合agent生态系统中的专业化。论文还进行了实验，以确定哪些模型在特定角色中表现出色。具体而言，表4显示GPT-4o、Qwen和LLaMA-3作为多才多艺的模型，在辅助和聚合任务中均表现有效。相比之下，WizardLM作为提议模型表现出色，但在聚合其他模型的响应方面则难以保持其有效性。

2.3.4 预算与token分析

为了理解预算、token使用与LC胜率之间的关系，论文进行了预算与token分析。图5a和图Sb展示了这些关系。

图5：(a) 性能权衡与成本的关系。(b) 性能权衡与每秒万亿次浮点运算（TFLOPS）的数量关系，论文以此作为延迟的agent指标。注意，论文计算每个MoA层中提议者之间的最大TFLOPS总和，因为多个提议者可以并行运行。论文的图表展示了一个帕累托前沿，论文可以在该前沿上选择一个模型，使其在达到特定性能水平时成本最低。论文表明，混合agent（Mixture-of-Agents）方法位于这个帕累托前沿上，相比之下，GPT-4 Turbo和GPT-4o并非成本最优，且相较于同等LC胜率的MoA方法更为昂贵。单提议者：在每个MoA层使用同一模型生成多个响应；多提议者：在每个MoA层使用不同模型。GPT-4的实际TFLOPS值未知，因此论文采用社区传闻的8x220B架构大小

成本效益在图5a中，论文绘制了LC胜率与AlpacaEval 2.0基准中每个实例的平均推理成本之间的关系。成本是根据API提供商网站上提供的定价信息计算的。"这有助于识别成本效益高的模型，这些模型在不过度花费的情况下实现了高性能。图表揭示了一个帕累托前沿，其中某些模型在成本和性能之间找到了最佳平衡。接近这个帕累托前沿的模型更受欢迎，因为它们通过较低的成本提供更高的LC胜率，从而提供了更好的货币价值。

具体来说，如果论文优先考虑质量，MoA是最佳配置。然而，如果论文想要在质量和成本之间取得良好平衡，MoA-Lite可以在达到更高水平质量的同时，与GPT-4o的成本相匹配。值得注意的是，它在成本效益上超过GPT-4 Turbo约4%，并且成本效益是其两倍以上。

Tflops消耗图5b展示了LC胜率与Tflops数量之间的关系。在这里，论文使用Tflops数量作为延迟的agent，因为延迟可能因推理系统而异。这一分析对于理解不同模型如何在维持或提高性能水平的同时管理其预算至关重要。与成本效率分析类似，这里也可以观察到一个帕累托前沿。位于这个前沿的模型有效地利用其计算资源，以最大化其LC胜率。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述