司南 OpenCompass 5 月榜单揭晓,全新大模型对战榜单首次登场

司南 OpenCompass 团队针对国内外主流大语言模型进行了全面评测,现已公布 2024 年 5 月大语言模型最新评测榜单!与此同时,CompassArena 大模型对战榜单 也于今日首次重磅上线!

5 月大语言模型榜单

本次榜单囊括了国内外共 40 个大语言模型,包含:GPT-4o、Claude3、Qwen-Max、文心一言、Yi-Large、Moonshot-v1、阶跃星辰、豆包等。

本次榜单相较于 4 月榜单的主要更新包括:

  • 新增了 GPT-4o、豆包、Qwen-Max-0428、Yi-Large 等闭源模型,Yi-1.5 系列、Nanbeige2 等开源模型;去除了若干无法公开访问的模型,或同系列存在更新版本的模型

  • 更换了原综合性客观评测基准中数学能力下的测试数据,新增了代码能力下的“算法面试”、“算法竞赛”两个细分任务

  • 原中文主观评测数据更新为中英文双语主观评测数据,新增代码、对话两个能力,使用 GPT-4o 作为评价模型

评测数据集采用中英文闭源数据集,包括中英文双语客观评测中英文双语主观评测。其中,客观评测涵盖 语言、知识、推理、数学、代码与智能体 六个维度;主观评测涵盖 语言、知识、推理、代码、创作、对话 六个维度。

综合来看,5 月的客观评测主观评测榜单大图如下:

月度榜单评测基准

司南 OpenCompass 2.0 月度榜单从基础能力和综合能力的设计出发,构造了一套高质量的中英文双语评测基准,涵盖 语言与理解、常识与逻辑推理、数学计算与应用、多编程语言代码能力、智能体、创作与对话 六个方面,并可被进一步细分为 意图识别、情感分析、内容评价与总结、多语言翻译、常识百科、数值计算能力、数学应用能力、多编程语言代码、基础工具调用、文本创作等 20 余项细分任务,力图对近期的主流开源模型和商业 API 模型进行全面评测分析。

5月榜单详细解读

客观评测结果说明

司南 OpenCompass 团队构建了 15000 余道高质量中英文双语问题,并引入团队首创的循环评估 (Circular Evalution) 策略,系统性分析了国内外大模型的客观性能。

基于客观评测结果,我们发现:

  • 头部模型再次变动:均分方面,GPT-4o 跃居榜首,GPT-4-Turbo 与豆包紧随其后。在中文子集上,GPT-4o, 豆包与 GPT-4-Turbo 位列前三;在英文子集上,前三名依次是 GPT-4o, GPT-4-Turbo 与 Claude-Opus。

  • 代码新任务难度高:在本月新增的“代码能力-算法面试”任务上,各模型表现与原有代码能力的子项测试结果趋势一致;而在新增的“代码能力-算法竞赛”任务上,所有的模型表现均在 20 分以下,可见这项任务对现有模型能力来讲仍然比较困难,表现前三名的模型依次是 Moonshot-v1, GPT-4o 与 Claude3-Opus。

主观评测结果说明

司南 OpenCompass 团队构建了 2000 余道高质量中英文双语问题,采用基于大语言模型对战的方式评测主流模型在开放场景下的对话体验。对战的基线模型选用 GPT-4-Turbo-1106,评价模型选用 GPT-4o-20240513。基于主观评测结果,我们发现:

  • 国内外模型分庭抗礼:均分方面,GPT-4o 表现一枝独秀,断崖式领先于其他模型;Qwen-Max-0428 与 GPT-4-Turbo 组成第二梯队;随后 Claude3-Opus, GLM-4, DeepSeek-V2 等模型构成了第三梯队。

  • 擅长知识对话,弱于推理代码:由于基线选用 GPT-4-Turbo-1106,因此得分 50 分可以认为是与 GPT-4-Turbo-1106 效果差不多,属于 "优秀线"。在考察中文子集的六项能力中,推理和代码能力超过 50 分的国产模型均有且只有 Qwen-Max-0428,而语言、知识、创作、对话能力均有五个及以上的国产模型超过 50 分。

  • 测试方案仍存缺憾:在客观测试中相当亮眼的豆包在主观评测中表现不如人意,这主要是因为其生成的文本相对简短,不受 GPT-4o 的青睐。从人工非量化的角度进行评测,豆包的生成文本质量尽管确实达不到前几名的水平,但也不应该排在当前的位置。基于同样的理由,GPT-4o 如此之高的得分也是有待进一步讨论的。这种模型打分与人工打分的不一致性,将是 OpenCompass 榜单未来需要解决的问题。

5 月大语言模型评测榜单已同步上线至 OpenCompass 官网,欢迎大家访问查看更详细的评测数据!

同时,司南 OpenCompass 评测过程中所用到的工具链均已在 Github 开源,诚挚邀请您在学术研究或产品研发过程中使用我们的工具~

https://github.com/open-compass/

https://rank.opencompass.org.cn/

CompassArena 大模型对战榜单

CompassArena 致力于构建一个完全基于用户真实反馈的公正、开放、透明的大模型对战榜单。用户根据与大模型的真实对话体验进行投票,系统依据投票结果,使用 Elo 等级分制度 对大模型进行排名。

截止 6 月 12 日,我们收集了接近 6000 条由用户真实反馈的大模型匿名对战数据,经过数据清洗和过滤后利用 Bradley-Terry 模型估计了 29 个大语言模型的竞技场 Elo 等级分数和 95% 置信区间,并使用该等级分数对大模型进行排名。

模型对战榜单介绍:

Compass Arena 致力于构建一个完全基于用户真实反馈的公正、开放、透明的大模型对战榜单。用户根据与大模型的真实对话体验进行投票。截止6月12日,我们收集了接近6000条由用户真实反馈的大模型匿名对战数据,经过数据清洗和过滤后利用Bradley-Terry模型估计了29个大语言模型的竞技场Elo等级分数和95%置信区间,并使用该等级分数对大模型进行排名。

Compass Arena is dedicated to creating a fair, open, and transparent LLM leaderboard that is entirely based on real user feedback. We collect real-time human comparisons of LLMs based on multi-turn conversations and rank them using the Bradley Terry model on a regular basis.

榜单数据分析:

基于历史匿名对战数据,我们采用了自举采样法分析竞技场Elo等级分的采样分布,并计算每个模型的Elo等级分的点估计和95%置信区间。我们发现

大模型对战榜单链接:https://opencompass.org.cn/arena

未来 CompassArena 大模型对战榜单将会每周实时更新。


欢迎大家关注“司南评测体系”微信公众号和知乎账号,获取更多大模型评测相关知识~

       

  • 27
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值