o1等国外头部大模型,在高难度任务上具备较大领先性 | SuperCLUE

6db041159a749d1ebf052f2762bc2d52.png

2643ed199fb240170c5a29f5a2324c03.png

测评团队|SuperCLUE

近期,SuperCLUE发布了《中文大模型基准测评2024年10月报告》,重点评估了国内外43个大模型,在中文环境下的理科、文科和高难度Hard任务上的综合能力。本文将进一步分析国外模型在不同维度下的详细表现。

在线完整报告地址(可下载):

www.cluebenchmarks.com/superclue_2410

SuperCLUE排行榜地址:

www.superclueai.com

#国外大模型总体表现

分析1:OpenAI和Anthropic的系列模型在中文环境下是全球最好的两个系列模型。

10月SuperCLUE基准测评涵盖了16个代表性国外大模型。国内大模型金牌平均线为10月测评中取得金牌的4个国内大模型的平均值。

1f8f6e35599b367cf09d6188bdbe3ae4.png

通过测评结果可以发现,OpenAI和Anthropic的模型在中文环境仍然是全球最好的大模型。其中,o1-preview取得总分75.85分,有较大领先优势。Claude 3.5 Sonnet(20241022)和ChatGPT-4o-latest表现相当,均有超过70分的表现。国内大模型金牌平均线稍落后于ChatGPT-4o-latest。与此相比,Gemini系列和Llama系列模型则在中文场景下表现相对较弱。

我们将国内外头部大模型的12项基础能力表现绘制了雷达分布图。

7c7426bdbacc758532100c2216b7b285.png

可以发现,在指令遵循、高阶推理、计算、逻辑推理、代码能力上,海外模型有较大领先性。在文科属性较强的任务上,国内外模型表现相当。

#国外大模型Hard任务表现

分析2:中文高难度Hard任务上,o1-preview大幅领先。

767562f7457c5504dca4dec3219d6a19.png

在中文高难度Hard任务(高阶推理和精确指令遵循)上,o1-preview大幅领先。排名第二档的Claude 3.5 Sonnet(20241022)和ChatGPT-4o-latest有超过50分的表现,其余国内外模型均低于50分。

分析3:中文理科任务上,国外头部大模型相对领先,但区分度不大。

f08f40ed4f8f19f9e8ec14ec787dd90e.png

在中文理科任务上,o1-preview小幅领先。ChatGPT-4o-latest、Claude 3.5 Sonnet(1022)和国内大模型金牌平均线表现紧随其后。目前全球头部大模型在基础理科能力上,如计算、代码等能力上区分不明显。

分析4:文科任务上,国内外头部大模型总体无明显差异。

e4ba4b98d304162521a10a8d71d5e128.png

在文科任务上,国内外头部大模型均处于70-80分之间,总体上无明显差异。

7c7896009122188cd0380115b4306865.gif

报告完整详细内容,可点击文章底部【阅读原文】查看高清完整PDF版。

在线完整报告地址(可下载):

www.cluebenchmarks.com/superclue_2410

更多10月SuperCLUE基准报告详情,可加入交流群。

91086601e603903dac764bef22bfe55a.png

outside_default.png

扩展阅读

outside_default.png

[1] CLUE官网:www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站:www.superclueai.com

[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE

[4] 报告地址:www.cluebenchmarks.com/superclue_2410

83de033fbd3b46eaba0ae29d46f6ba7c.gif   点击阅读原文,查看完整报告

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值