13名LLM考生挑战高考数学卷，GPT-4o仅排第3名！！！

TechQuester

已于 2024-06-12 21:26:28 修改

阅读量515

点赞数 10

文章标签：人工智能 chatgpt python gpt llama 高考

于 2024-06-12 21:04:39 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/elevensakura/article/details/139636598

版权

今年，复旦大学的研究团队独辟蹊径，将目光聚焦在全新出炉的2024高考数学试卷上，并开创性地提出用高考题来评测大模型！

这无疑是一个极具创意和挑战性的尝试。

在这次评测中，阿里千问和讯飞星火分别获得了2024高考数学新Ⅰ卷的第一名和第二名，以及高考数学新Ⅱ卷的第二名和第一名。

两份考卷的评测中，GPT-4o均列第三名。GPT-4o居然只得了第三名？

GPT-4o深夜发布！Plus免费可用！https://www.zhihu.com/pin/1773645611381747712
没体验过OpenAI最新版GPT-4o？快戳最详细升级教程，几分钟搞定：

升级ChatGPT-4o Turbo步骤https://www.zhihu.com/pin/1768399982598909952

在新Ⅰ卷中，阿里千问和讯飞星火对14道数学客观题的准确率达到70%以上，大幅领先GPT-4o的57%。

字节豆包、智谱清言、百川等大模型紧随其后，准确率超过50%。而在新Ⅱ卷的评测中，讯飞星火、阿里千问、GPT-4o的准确率均超过60%，

其他大模型的差距较小，除百川、DeepSeek和海螺之外，准确率均在50%以上。

最关键的是，数学能力一直是GPT-4o引以为傲的模块。

OpenAI在5月14日的发布会上推出大语言模型GPT-4o时，曾重点演示其数学能力！

本文教你如何使用WildCard正确方式打开GPT-4o，目前 WildCard 支持的服务非常齐全，可以说是应有尽有！

官网有更详细介绍：WildCard

推荐阅读：

如何免费使用GPT-4o？如何升级GPT...

更强大Mamba-2正式发布啦！！！

黎曼猜想取得重大进展！！

关注

10
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。