Compass Arena 大语言模型对战榜单新一轮更新来啦！

司南评测

于 2024-08-02 10:52:56 发布

阅读量755

点赞数 13

分类专栏：大模型评测体系大模型对战榜单文章标签：语言模型人工智能自然语言处理深度学习 python 神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/OpenCompass/article/details/140866334

版权

大模型评测体系同时被 3 个专栏收录

15 篇文章

订阅专栏

4 篇文章

订阅专栏

大模型对战

2 篇文章

订阅专栏

CompassArena 自榜单首次上线以来，收到了更多用户的反馈和真实体验数据。今天，大模型对战迎来了新一轮更新，同时新增了子榜单功能，快来看看吧！

目前 CompassArena 大模型竞技场已支持 30 余个主流大语言模型，包括 InternLM系列、GLM-4-0520、Qwen2系列、文心一言4.0、DeepSeek-V2、星火3.5、豆包pro/240615、零一万物等。

截至8月1日，CompassArena 已收集到超过 11000 条有效的大模型匿名对战数据，并更新了大语言模型的 Elo 等级分数排名。其中：

排名（UB）：定义模型的排名为比目标模型（在统计意义上）更优的模型数量加一。若模型A的95%置信区间的下限大于模型B的95%置信区间的上限，则模型A被认为统计显著优于模型B。
排名（Elo）：基于模型竞技场Elo分数进行降序排列得出的排名。此排名受Elo估计的不确定性影响，因此应该结合95%置信区间合理评估模型的真实水平。

以下为最新（2024年8月1日）的匿名对战 Elo 分数和排名：

基于匿名对战结果，我们发现：

第一梯队模型：在匿名对战中表现比较优秀的模型除了 GPT-4o-20240513 之外，均为国产大模型，前五名依次为 GPT-4o-20240513、Spark-v3.5-Max w/search、ERNIE-4.0-8K-Preview-0518 w/search、Qwen2-72B-Instruct、ERNIE-4.0-8K-Preview-0518。可见前十名包含了众多带搜索功能的模型，且从第十一名的 GLM-4 开始出现了较大的 Elo 分差。
值得关注的是 Qwen2-72B-Instruct 虽是开源模型，其排名却仅次于 GPT-4o-20240513 和两个国产商业大模型，拥有非常好的对话表现。
目前对排名的不确定性：由于模型分数的95%置信区间有较大的重叠，我们暂时无法确定头部模型之间的真实排名（排名（UB）均为1）。

新增子榜单功能

为了提高榜单的公平性和多样性，CompassArena 推出了子榜单功能。用户可以通过下拉框选择查看最新公布的子榜单，目前提供了下列选项：

全部：包含所有模型和有效对战结果。
模型模式 - 非联网：包含所有已关闭搜索的模型和对应的有效对战结果。

注：我们会在每个子榜单中排除投票数少于300的模型，因为他们的置信区间（不确定性）较大。后续将根据数据量和需求添加其他子榜单。

官网体验链接：

https://rank.opencompass.org.cn/home

魔搭社区体验链接：

https://www.modelscope.cn/studios/opencompass/CompassArena

Huggingface 体验链接：

https://huggingface.co/spaces/opencompass/CompassArena

欢迎大家关注“司南评测体系”微信公众号和知乎账号，获取更多大模型评测相关知识~

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。