Compass Arena 大语言模型对战榜单新一轮更新来啦!

CompassArena 自榜单首次上线以来,收到了更多用户的反馈和真实体验数据。今天,大模型对战迎来了新一轮更新,同时新增了子榜单功能,快来看看吧!

目前 CompassArena 大模型竞技场已支持 30 余个主流大语言模型,包括 InternLM系列、GLM-4-0520、Qwen2系列、文心一言4.0、DeepSeek-V2、星火3.5、豆包pro/240615、零一万物等。

截至8月1日,CompassArena 已收集到超过 11000 条有效的大模型匿名对战数据,并更新了大语言模型的 Elo 等级分数排名。其中:

  • 排名(UB):定义模型的排名为比目标模型(在统计意义上)更优的模型数量加一。若模型A的95%置信区间的下限大于模型B的95%置信区间的上限,则模型A被认为统计显著优于模型B。

  • 排名(Elo):基于模型竞技场Elo分数进行降序排列得出的排名。此排名受Elo估计的不确定性影响,因此应该结合95%置信区间合理评估模型的真实水平。

以下为最新(2024年8月1日)的匿名对战 Elo 分数和排名:

基于匿名对战结果,我们发现:

  • 第一梯队模型:在匿名对战中表现比较优秀的模型除了 GPT-4o-20240513 之外,均为国产大模型,前五名依次为 GPT-4o-20240513、Spark-v3.5-Max w/search、ERNIE-4.0-8K-Preview-0518 w/search、Qwen2-72B-Instruct、ERNIE-4.0-8K-Preview-0518。可见前十名包含了众多带搜索功能的模型,且从第十一名的 GLM-4 开始出现了较大的 Elo 分差。

  • 值得关注的是 Qwen2-72B-Instruct 虽是开源模型,其排名却仅次于 GPT-4o-20240513 和两个国产商业大模型,拥有非常好的对话表现。

  • 目前对排名的不确定性:由于模型分数的95%置信区间有较大的重叠,我们暂时无法确定头部模型之间的真实排名(排名(UB)均为1)。

新增子榜单功能

为了提高榜单的公平性和多样性,CompassArena 推出了子榜单功能。用户可以通过下拉框选择查看最新公布的子榜单,目前提供了下列选项:

  • 全部:包含所有模型和有效对战结果。

  • 模型模式 - 非联网:包含所有已关闭搜索的模型和对应的有效对战结果。

注:我们会在每个子榜单中排除投票数少于300的模型,因为他们的置信区间(不确定性)较大。后续将根据数据量和需求添加其他子榜单。

官网体验链接:

https://rank.opencompass.org.cn/home

魔搭社区体验链接:

https://www.modelscope.cn/studios/opencompass/CompassArena

Huggingface 体验链接:

https://huggingface.co/spaces/opencompass/CompassArena


欢迎大家关注“司南评测体系”微信公众号和知乎账号,获取更多大模型评测相关知识~

       

  • 13
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值