实测:GPT-4o登顶中文推理基准,总分81.73,刷新数学和代码最好成绩

本测评结果仅用于学术研究。

5月14日凌晨,OpenAI召开春季发布会,发布新版本模型GPT-4o。它具备实时多模态人机交互能力,打通了文本、语音和视觉,语音延迟大幅降低。GPT-4o的API速度比GPT-4 Turbo快2倍,价格便宜50%,并且官方说明GPT-4o在多项复杂任务上效果都超过GPT-4Turbo。

52dc445e1f4284f6d03a0496e9c8f9af.png

针对公众关注的GPT-4o的中文性能问题,作为专业第三方测评机构SuperCLUE选取了中文推理相关的核心任务进行了深入测评。具体来说,我们采用了中文数学多步推理测评基准(SuperCLUE-Math6,含2024题)中文等级化代码单元测试基准(SuperCLUE-Code3,包含1560个测试用例),对GPT-4o在数学和编程方面的能力进行了全面评估。

先说结论

结论1:在完成SuperCLUE推理任务时,GPT-4o的整体得分为81.73,超过GPT-4 Turbo成为中文推理任务最强模型。

结论2:GPT-4o在SC-Math6数学基准上得分91.77分,较GPT-4 Turbo提升1.06分,登顶SC-Math6榜首,判定为推理等级5。

结论3:GPT-4o在SC-Code3代码基准上得分71.68分,较GPT-4 Turbo提升2.11分,刷新SC-Code3最好成绩。

测评结果

ad3c724725c96e50f83317ba36369ec3.png

SuperCLUE-Math6

eaf65185b86f1cd38f20b4434eb04598.jpeg

0c998f7ef6d2c032df926d8e9f4af50f.png

SuperCLUE-Code3

02ee1040a5ad5562b376099ad6cb15b5.jpeg

96902e57f4e9f6750ffc214bff8cc413.png

更多模型测评信息,可加入SuperCLUE-GPT-4o交流群。

a4801addb153e4609cbf231f2304f5fb.png

Math6数据集申请方式:

请使用单位邮箱,将数据研究目的、计划,研究机构、申请者介绍和联系方式(手机或微信),发送到邮箱,并承诺不向第三方提供。

邮箱: contact@superclue.ai,标题是:SuperCLUE-Math6测试集申请

Code3测评申请方式:

请使用单位邮箱发送邮件至contact@superclue.ai,标题:SuperCLUE-Code3测评

outside_default.png

扩展阅读

outside_default.png

[1] CLUE官网:www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站:www.superclueai.com

[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE

[4] Math6地址:www.cluebenchmarks.com/superclue_math6.html

[5] Code3地址:www.cluebenchmarks.com/superclue_code3.html

 
 
 
 

a28da0d1c6221e927971b9e9c338ec33.jpeg

 
 
 
 
 
 
 
 
往期精彩回顾




适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑
  • 交流群

欢迎加入机器学习爱好者微信群一起和同行交流,目前有机器学习交流群、博士群、博士申报交流、CV、NLP等微信群,请扫描下面的微信号加群,备注:”昵称-学校/公司-研究方向“,例如:”张小明-浙大-CV“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~(也可以加入机器学习交流qq群772479961)

5c5f49e9bd02464dbd61fb1fa7b77d02.png

846ce875c0bed0da3669cbad5c79ca6d.gif   点击阅读原文,查看SuperCLUE排行榜

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值