近日,智源研究院推出全球首个中文大模型辩论平台FlagEval Debate,旨在通过引入模型辩论这一竞争机制对大语言模型能力评估提供新的度量标尺。该平台是智源模型对战评测服务FlagEval大模型角斗场的延展,将有助于甄别大语言模型的能力差异。
FlagEval Debate官网:https://flageval.baai.org/#/debate
大模型对战被广泛认为是能够公平且有效的反应用户喜好倾向的一种大模型评估方式。但现有的大模型对战普遍存在如下几个问题:
-
1 大部分模型对战胜率趋于平局,无法有效区分模型之间的差异;
-
2 测试内容完全依赖用户,需要大量用户参与投票才能保证评测结果的准确性和稳定性;
-
3 在现有的对战方式下,模型之间缺乏交互,无法反映模型之间的协作性和交互性。
为了优化以上问题,智源研究院尝试使用大模型辩论的形式对大模型进行评估。辩论是一项通过逻辑推理、语言表达和现实论据来论证己方观点、驳斥对方观点、说服中立第三方的语言类智力活动和综合性表达游戏,具备明确的竞技性,能够体现人的逻辑思维、语言组织、信息分析与处理能力,以及在对立观点中寻找平衡与突破的能力。模型辩论能够展现大模型在信息理解、知识整合、逻辑推理、语言生成和对话能力,同时,还能测试其在复杂语境中信息的处理深度和迁移应变能力,反映其学习与推理的进步水平。
在对大模型辩论的技术路径与对战结果有效性进行初步分析之后,智源研究院发现通过辩论这种交互性对战形式,能够凸显模型之间的差距,并可基于少量的数据样本计算模型有效排名,故推出基于众测的中文大模型辩论平台FlagEval Debate。
大模型辩论平台FlagEval Debate,支持两个模型分别以正反方身份围绕辩题开展辩论。辩题由FlagEval Debate从辩题库中随机抽取,辩题库主要由热搜话题改编、FlagEval评测专家以及顶级辩论专家命制的辩题构成。为提高用户体验,更好地触达大众及专业评审,所有用户均可在FlagEval Debate平台对每场辩论进行评判。目前Flageval Debate已上线海外主流闭源以及众多开源模型。
每场模型辩论由正方先发表意见,反方后发表意见,正反双方共发表5轮意见,FlagEval Debate平台页面同时展示双方每轮对话的观点,然后由人类用户判断哪方获胜。为了有效避免正反方位置带来的偏差,每一辩题下两个模型均会各做一次正方一次反方。当模型正反方身份互换后,将再次按照正反方顺序进行相同数量的轮次对话。每个大模型会与其他模型进行多场辩论,最终根据获胜的积分计算模型排名。
模型辩论对战将采取开放性众测和专家评测两种方式,其中专家评审团由专业辩论赛的选手和评委组成(包括世界冠军团队),开放性众测观众可自由鉴赏和投票。
开放性众测观众报名链接:https://jwolpxeehx.feishu.cn/share/base/form/shrcnanu35NqOKaefVMUJKv6JYg
大模型辩论的对战赛程以及规划如下图所示。初步实验表明,参与辩论的大模型经过prompt调优后表现会有很大的提升,欢迎各模型厂商扫描图中二维码或发送邮件至flageval@baai.ac.cn报名参与模型辩论评测,智源将提供免费的模型辩论调试服务。
未来,智源研究院将持续探索模型辩论的技术路径与应用价值,坚持科学、权威、公正、开放四大原则,不断完善FlagEval大模型评测体系,为大模型评测生态提供新的洞察与思考。