GPT-4o登顶中文推理基准，总分81.73，刷新数学和代码最好成绩

技术人生黄勇

于 2024-05-15 13:04:04 发布

阅读量207

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5NDg2MjgxMg==&mid=2247485560&idx=1&sn=f54abd2b6c0851e810b6f0ceae9c5dcd&chksm=ffce23292b458ad3a256070d2ee00eaac24e6b27f834e2b9e5abc2630bcadb49e98e1a1298c7&scene=126&sessionid=0

版权

本测评结果仅用于学术研究。

5月14日凌晨，OpenAI召开春季发布会，发布新版本模型GPT-4o。它具备实时多模态人机交互能力，打通了文本、语音和视觉，语音延迟大幅降低。GPT-4o的API速度比GPT-4 Turbo快2倍，价格便宜50%，并且官方说明GPT-4o在多项复杂任务上效果都超过GPT-4Turbo。

针对公众关注的GPT-4o的中文性能问题，作为专业第三方测评机构SuperCLUE选取了中文推理相关的核心任务进行了深入测评。具体来说，我们采用了中文数学多步推理测评基准（SuperCLUE-Math6，含2024题）和中文等级化代码单元测试基准（SuperCLUE-Code3，包含1560个测试用例），对GPT-4o在数学和编程方面的能力进行了全面评估。

先说结论

结论1：在完成SuperCLUE推理任务时，GPT-4o的整体得分为81.73，超过GPT-4 Turbo成为中文推理任务最强模型。

结论2：GPT-4o在SC-Math6数学基准上得分91.77分，较GPT-4 Turbo提升1.06分，登顶SC-Math6榜首，判定为推理等级5。

结论3：GPT-4o在SC-Code3代码基准上得分71.68分，较GPT-4 Turbo提升2.11分，刷新SC-Code3最好成绩。

测评结果

SuperCLUE-Math6

SuperCLUE-Code3

更多模型测评信息，可加入SuperCLUE-GPT-4o交流群。

Math6数据集申请方式：

请使用单位邮箱，将数据研究目的、计划，研究机构、申请者介绍和联系方式（手机或微信），发送到邮箱，并承诺不向第三方提供。

邮箱: contact@superclue.ai，标题是：SuperCLUE-Math6测试集申请

Code3测评申请方式：

请使用单位邮箱发送邮件至contact@superclue.ai，标题：SuperCLUE-Code3测评

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark/SuperCLUE

[4] Math6地址：www.cluebenchmarks.com/superclue_math6.html

[5] Code3地址：www.cluebenchmarks.com/superclue_code3.html

点击阅读原文，查看SuperCLUE排行榜

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。