大模型新排名,20家大模型角逐第一!

 Datawhale发布 

发布:上海人工智能实验室、魔搭社区

了解大语言模型的小伙伴们想必对LMSYS Org推出的大模型竞技场Chatbot Arena已经有所耳闻了,Chatbot Arena目前是海外最具公信力的大模型榜单之一,但该榜单中文化程度还相对不足。

 OpenCompass:大模型评测的实践与思考

近期,上海人工智能实验室联合魔搭社区推出中国大语言模型评测竞技场 Compass Arena,首度集齐国内主流大模型全明星阵容,里面包括:阿里通义千问、百度文心一言、腾讯混元、讯飞星火、字节跳动豆包、智谱AI、百川智能、零一万物、月之暗面、Minimax、深度求索、书生·浦语等20款国产大模型出战,角逐中国大模型“最强王者”。

d9d9b2e698de52d23f18c1c55cd1d09f.jpeg

Compass Arena 体验链接:

https://modelscope.cn/studios/opencompass/CompassArena/summary

b43abf71854079a9461044cdabaf4aca.png

扫码体验


相比考题固定的传统测评,大模型竞技场采用盲测、开放的测评模式,可以更全面地检验模型实力。Compass Arena 设置了随机、匿名对战,大模型选手们成为“蒙面唱将”,模型信息隐去后,由系统随机匹配进行 PK,用户可以天马行空自由出题,并作为评委主观评判和投票。如果大模型不小心“自报家门”,则对话被过滤,不计入成绩。通过成千上万轮 PK 挑战和用户投票,系统将对大模型进行自动排名。

8fb3ff0aac137ad5c745a3fa8dbf0c9d.png

魔搭社区直播时,网友脑洞大开在线出题


Compass Arena 由上海人工智能实验室 OpenCompass 司南评测体系与魔搭社区联合建设,前者负责组织评测,后者负责开源模型引入及社区打造。据上海人工智能实验室 OpenCompass 团队介绍,Compass Arena 力求体现社区用户的真实反馈,评测机制借鉴 Chatbot Arena ,采用 Elo 评分系统,即国际象棋等对弈活动评估的权威标准。在这种模式下,大模型竞技类似“在游戏中打排位”,胜率成为评估模型水平的关键指标,同时随着排位变高,系统也会自动匹配高段位选手进行对战。

与 Chatbot Arena 相比,Compass Arena 更聚焦中文大模型,主流国产大模型全覆盖,同时评测用户大多使用中文,可以充分评估国产大模型的效果。

目前,Compass Arena 已汇聚超20款商业及社区模型,包括 Qwen-Max、ERNIE-4.0-8K、Spark3.5 Max、Abab6.5、GLM4 等国内头部厂商的旗舰款大模型,并引入了 Llama3、Mixtral 等海外标杆模型进行参照。更多模型及厂商还在不断加入中。

2671e5fa01363a1fe7610d17712670a9.png

期望 Compass Arena 能在国内携手构建一个开放、公平、透明的大语言模型评估体系,推动大模型评测的公正性和客观性,提供可信赖的大模型评估参考,促进大语言模型技术的健康发展和持续创新。

大模型哪家强,小伙伴们可以直接体验 Compass Arena (或点击阅读原文直达)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值