大模型多智能体辩论不敌单智能体CoT?上海AI Lab等重新审视多智能体辩论的有效性...

图片

“三个臭皮匠,顶个诸葛亮”——这句古老的谚语似乎在大模型领域遇到了挑战。

在大模型领域,多智能体辩论(Multi-Agent Debate, MAD)方法持续引发学界关注,并频繁亮相于顶级学术会议。该方法认为,通过让多个智能体在大模型推理时展开多轮辩论,可提升生成内容的事实准确性和推理质量。

然而,当前 MAD 的评估标准需要被重新审视——由上海人工智能实验室 OpenAGCI Team 联合宾夕法尼亚州立大学、西北工业大学及新加坡管理大学的最新研究表明:多智能体辩论在大多数情况下不敌简单的单智能体方法 Chain-Of-Thought。

在 36 种实验配置(覆盖 9 个常见数据集与 4 种大模型)中,MAD 的胜率不足 20%。即使增加辩论轮次或扩展智能体规模,仍无法改变其竞争劣势。这一发现是否意味着多智能体系统引以为傲的"群体智能"优势仅为美好的幻想?抑或是当前研究尚未找到打开其潜力的正确钥匙?

bb119cdb85e5769565cc52b597232a79.png

论文标题:

If Multi-Agent Debate is the Answer, What is the Question?

论文地址:

https://www.alphaxiv.org/abs/2502.08788

亮点速览

  • 系统性评估:覆盖 5 种主流 MAD 框架、9 大基准测试、4 种 LLM,揭示 MAD 研究的局限性;

  • 关键性结论:MAD 并非“万能解药”,现有方法在答案正确性、推理效率、鲁棒性上落后于单智能体推理策略 Chain-Of-Thought 和 Self-Consistency;

  • 简单有效的改进:提出 Heter-MAD,通过简单引入异构模型智能体,无需修改现有 MAD 框架即可稳定提升性能(最高达 30%);

  • 未来研究思路:模型异构性优化、细粒度交互机制、适配 MAD 的复杂场景

dbabd050a2bf919d2787efc73b7fa9f6.png

研究背景:多智能体辩论(MAD)的兴起与争议

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值