7月最新大模型排名！3700道保密试题、20个大模型参与评测｜SuperCLUE

javastart

已于 2023-07-25 10:33:19 修改

阅读量1.3k

点赞数

分类专栏：自然语言大模型文章标签： chatgpt 人工智能

于 2023-07-25 10:32:08 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/javastart/article/details/131912294

版权

大模型同时被 2 个专栏收录

235 篇文章

订阅专栏

165 篇文章

订阅专栏

7月最新大模型排名！3700道保密试题、20个大模型参与评测｜SuperCLUE

CLUE中文语言理解测评基准

中文通用大模型综合性评测基准SuperCLUE

2023年7月榜单

7月25日，SuperCLUE发布大模型7月榜单。

SuperCLUE: A Benchmark for Foundation Models in Chinese

SuperCLUE-Opt评测榜单

SuperCLUE-Opt评测基准是SuperCLUE综合性三大基准之一，每期有3700+道客观题（选择题），由基础能力（10个子任务）、中文特性能力（10个子任务）、学术专业能力（50+子任务）组成，用于考察大模型在70余个任务上的综合表现。

7月榜单由4部分组成：总排行榜、基础能力榜单、中文特性榜单、开源模型榜单。

2023年7月SuperCLUE-Opt中文大模型总排行榜：

注：国外代表性非开源模型（GPT4.0/Claude/gpt-3.5）参与榜单，但不参与排名

2023年7月SuperCLUE-Opt基础能力榜单：

注：国外代表性非开源模型（GPT4.0/Claude/gpt-3.5）参与榜单，但不参与排名

2023年7月SuperCLUE-Opt中文特性榜单：

注：国外代表性非开源模型（GPT4.0/Claude/gpt-3.5）参与榜单，但不参与排名

2023年7月SuperCLUE-Opt开源模型榜单：

SuperCLUE认为榜上有名的都是英雄。

温馨提醒，此榜单仅用于学术研究，不作为投资建议。

排行榜会定期更新，可访问：

https://www.cluebenchmarks.com

https://github.com/CLUEbenchmark/SuperCLUE

SuperCLUE7月评测变动

7月榜单有一些重要变动：

1. 增加了Claude-2、百川智能的Baichuan-13B-Chat、清华&智谱AI的ChatGLM2-6B、上海人工智能实验室&商汤科技的internlm-chat-7b（书生浦语）、Meta新开源的Llama-2-13B-Chat

具体模型来源及版本信息，请访问：

https://github.com/CLUEbenchmark/SuperCLUE

2. 7月评测数据集与5、6月评测数据集完全独立，数量级为3728道测试题。

3. 新增开源模型榜单，方便中文社区开发者对比使用，并突出称赞各模型研发机构对于开源事业的贡献。

SuperCLUE是什么？

SuperCLUE是中文通用大模型综合性评测基准，由三大基准组成，分别是：

一、SuperCLUE-Opt：客观题测试形式，三大能力+七十余子任务

详情点击文章：最新大模型排名！中文大模型评测基准SuperCLUE发布6月榜单

二、SuperCLUE-Open：主观题形式，十大基础任务，可测开放域、多轮能力

详情点击文章：首测生成、多轮对话能力！SuperCLUE-Open中文大模型开放域测评基准发布

三、SuperCLUE-LYB琅琊榜：用户投票的匿名对战形式，也是本文发布的基准

详情点击文章：大模型对战平台「SuperCLUE琅琊榜」排名首发，国内大模型首超GPT3.5

SuperCLUE具有独特的优势

保密性高：

SuperCLUE数据集保密性高，减少模型训练数据混入评测数据的可能性。

月考制：

SuperCLUE按照月考的形式进行评测，基于国内大模型研发机构的模型训练进度，模型月考与模型研发节奏保持同步。

自动测评：

通过自动化测评方式以相对客观形式测试不同模型的效果，可以一键对大模型进行测评。

模型范围宽泛：

选取了多个国内外有代表性的可用的模型进行测评，以反映国内大模型的发展现状并了解与国际领先模型的差距或相对优劣势。

人类基准：

在通用人工智能发展的情况下，也提供了模型相对于人类效果的指标对比。

SuperCLUE不足与局限

选取模型的不完全：我们测试了一部分模型，但还存在着更多的可用中文大模型。需要后续进一步添加并测试；有的模型由于没有广泛对外提供服务，我们没能获取到可用的测试版本。
选取的能力范围：我们尽可能的全面、综合衡量模型的多维度能力，但是可能有一些模型能力没有在我们的考察范围内。后续也存在扩大考察范围的可能。

SuperCLUE基准计划按照月度进行更新，会纳入更多可用中文大模型，欢迎大模型研发机构联系与交流，可在下方申请评测。

SuperCLUE榜单大模型评测申请：https://wj.qq.com/s2/12305633/a73d/

模型内测需求收集（非公开）：https://wj.qq.com/s2/12307825/2ae0/

Github地址：https://github.com/CLUEbenchmark/SuperCLUE

CLUE官网：https://www.cluebenchmarks.com

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。