“三个臭皮匠,顶个诸葛亮”——这句古老的谚语似乎在大模型领域遇到了挑战。
在大模型领域,多智能体辩论(Multi-Agent Debate, MAD)方法持续引发学界关注,并频繁亮相于顶级学术会议。该方法认为,通过让多个智能体在大模型推理时展开多轮辩论,可提升生成内容的事实准确性和推理质量。
然而,当前 MAD 的评估标准需要被重新审视——由上海人工智能实验室 OpenAGCI Team 联合宾夕法尼亚州立大学、西北工业大学及新加坡管理大学的最新研究表明:多智能体辩论在大多数情况下不敌简单的单智能体方法 Chain-Of-Thought。
在 36 种实验配置(覆盖 9 个常见数据集与 4 种大模型)中,MAD 的胜率不足 20%。即使增加辩论轮次或扩展智能体规模,仍无法改变其竞争劣势。这一发现是否意味着多智能体系统引以为傲的"群体智能"优势仅为美好的幻想?抑或是当前研究尚未找到打开其潜力的正确钥匙?
论文标题:
If Multi-Agent Debate is the Answer, What is the Question?
论文地址:
https://www.alphaxiv.org/abs/2502.08788
亮点速览
系统性评估:覆盖 5 种主流 MAD 框架、9 大基准测试、4 种 LLM,揭示 MAD 研究的局限性;
关键性结论:MAD 并非“万能解药”,现有方法在答案正确性、推理效率、鲁棒性上落后于单智能体推理策略 Chain-Of-Thought 和 Self-Consistency;
简单有效的改进:提出 Heter-MAD,通过简单引入异构模型智能体,无需修改现有 MAD 框架即可稳定提升性能(最高达 30%);
未来研究思路:模型异构性优化、细粒度交互机制、适配 MAD 的复杂场景
研究背景:多智能体辩论(MAD)的兴起与争议
近