CompassArena 自榜单首次上线以来,收到了更多用户的反馈和真实体验数据。今天,大模型对战迎来了新一轮更新,同时新增了子榜单功能,快来看看吧!
目前 CompassArena 大模型竞技场已支持 30 余个主流大语言模型,包括 InternLM系列、GLM-4-0520、Qwen2系列、文心一言4.0、DeepSeek-V2、星火3.5、豆包pro/240615、零一万物等。
截至8月1日,CompassArena 已收集到超过 11000 条有效的大模型匿名对战数据,并更新了大语言模型的 Elo 等级分数排名。其中:
-
排名(UB):定义模型的排名为比目标模型(在统计意义上)更优的模型数量加一。若模型A的95%置信区间的下限大于模型B的95%置信区间的上限,则模型A被认为统计显著优于模型B。
-
排名(Elo):基于模型竞技场Elo分数进行降序排列得出的排名。此排名受Elo估计的不确定性影响,因此应该结合95%置信区间合理评估模型的真实水平。
以下为最新(2024年8月1日)的匿名对战 Elo 分数和排名:
基于匿名对战结果,我们发现:
-
第一梯队模型:在匿名对战中表现比较优秀的模型除了 GPT-4o-20240513 之外,均为国产大模型,前五名依次为 GPT-4o-20240513、Spark-v3.5-Max w/search、ERNIE-4.0-8K-Preview-0518 w/search、Qwen2-72B-Instruct、ERNIE-4.0-8K-Preview-0518。可见前十名包含了众多带搜索功能的模型,且从第十一名的 GLM-4 开始出现了较大的 Elo 分差。
-
值得关注的是 Qwen2-72B-Instruct 虽是开源模型,其排名却仅次于 GPT-4o-20240513 和两个国产商业大模型,拥有非常好的对话表现。
-
目前对排名的不确定性:由于模型分数的95%置信区间有较大的重叠,我们暂时无法确定头部模型之间的真实排名(排名(UB)均为1)。
新增子榜单功能
为了提高榜单的公平性和多样性,CompassArena 推出了子榜单功能。用户可以通过下拉框选择查看最新公布的子榜单,目前提供了下列选项:
-
全部:包含所有模型和有效对战结果。
-
模型模式 - 非联网:包含所有已关闭搜索的模型和对应的有效对战结果。
注:我们会在每个子榜单中排除投票数少于300的模型,因为他们的置信区间(不确定性)较大。后续将根据数据量和需求添加其他子榜单。
官网体验链接:
https://rank.opencompass.org.cn/home
魔搭社区体验链接:
https://www.modelscope.cn/studios/opencompass/CompassArena
Huggingface 体验链接:
https://huggingface.co/spaces/opencompass/CompassArena
欢迎大家关注“司南评测体系”微信公众号和知乎账号,获取更多大模型评测相关知识~