大模型的高考数学成绩单：及格已经非常好了

AGI学习社

于 2024-11-12 17:41:54 发布

阅读量670

点赞数 5

文章标签：高考人工智能语言模型 stable diffusion prompt 自然语言处理

本文链接：https://blog.csdn.net/2401_85773741/article/details/143720145

版权

让考生头皮发麻的高考数学，可难倒了顶尖 AI 大模型。

一年一度的高考即将落幕，衷心希望各位考生都超常发挥，考出满意的好成绩！！

和往年一样，除了让 AI 大模型写写高考作文，我们也选取了六家国内头部大模型公司的产品与考生们一同参与一场客观且公平（让众多考生头皮发麻）的高考数学考试（新课标 Ⅰ 卷），其中包括 GPT-4o、GLM-4、文心一言 4.0、豆包、百小应（百川 4）以及通义千问 2.5。

先来瞧一瞧这份「大模型成绩单」：

令人惊讶的是，在这次模拟考试中，大模型（产品）的表现并未达到预期，甚至出现了几乎全部不及格的情况，只有智谱最新发布的 GLM-4-0520 模型超过了及格线。

对大模型产品来说，高考语文作文可以直接测试它们的创造性写作技巧，包括构思、组织和表达观点的能力。

而在数学考试测试中，除了基本的计算能力、对数学知识的掌握，更能体现大模型在逻辑推理、抽象思维和问题解决方面的高级能力。大模型必须理解并运用数学概念、公式和定理，这要求它具备深厚的数学知识基础。同时，逻辑推理能力是解答数学题目的关键，大模型需要通过严密的逻辑推导来解决问题。

具体测试环节：

我们将评测的重点放在了高考数学的前 14 个客观题上，这些题目覆盖了基础的数学知识和计算能力，满分为 73 分。在测试时，我们将题目直接输入产品，不做 System Prompt 引导，直接输出结果；同时也没有触发搜索，没有来自外界的干扰。

分数计算方法依照高考真实判分原则：

单选题 8 道，每道 5 分，选项正确计分，错误不得分；
多选题 3 道，每道 6 分，全对计 6 分，漏选按正确答案数量计分，如答案为 ABCD，漏选其一扣 1.5 分，错选不得分；
填空题，3 道，每道 5 分，填空正确计分，错误不得分。

图｜8 个模型对 14 道数学题的回答结果，绿色为正确、红色为错误、黄色为部分正确

具体而言，在满分 73 分、及格线为 43.8 分（60%）的情况下，六家大模型产品的分数结果分别为：GLM-4-0520 (63 分) > 智谱清言 (43 分) > GPT-4o (41 分) > 豆包 (40 分) > 文心 4 (30 分) = 百川 4 (30 分) > 通义千问 2.5 (29 分)。

多说一句，每年的第 8 道单选题往往是高考数学卷中最难的一道题，被测试的大模型都 “全军覆灭” 了。

完整测试结果如下：

单选题一

（6个模型回答正确，1个回答错误）

GPT-4o：正确

通义千问 2.5：正确

GLM-4-0520：正确

智谱清言：正确

豆包：正确

文心 4：错误

百川 4：正确

在这里插入图片描述

单选题二

（3个模型回答正确，4个回答错误）

GPT-4o：错误

通义千问 2.5：正确

GLM-4-0520：正确

智谱清言：正确

豆包：错误

文心 4：错误

百川 4：错误

单选题三

（全部回答正确）

GPT-4o：正确

通义千问 2.5：正确

GLM-4-0520：正确

智谱清言：正确

在这里插入图片描述

豆包：正确

文心 4：正确

百川 4：正确

单选题四

（全部回答正确）

GPT-4o：正确

通义千问 2.5：正确

GLM-4-0520：正确

智谱清言：正确

豆包：正确

在这里插入图片描述

文心 4：正确

百川 4：正确

单选题五

（6个模型回答正确，一个无响应）

GPT-4o：正确

通义千问 2.5：无响应，最终提示系统超时

GLM-4-0520：正确

智谱清言：正确

豆包：正确

文心 4：正确

百川 4：正确

单选题六

（6个模型回答正确，一个回答错误）

GPT-4o：错误

通义千问：正确

GLM-4-0520：正确

智谱清言：正确

豆包：正确

文心 4：正确

百川 4：正确

单选题七

（6个模型回答正确，一个回答错误）

GPT-4o：正确

通义千问 2.5：错误

GLM-4-0520：正确

智谱清言：正确

豆包：正确

在这里插入图片描述

文心 4：正确

在这里插入图片描述

百川 4：正确

单选题八

（7个模型无一得出正确答案）

GPT-4o：错误

通义千问2.5：错误

GLM-4-0520：错误

智谱清言：错误

豆包：错误

在这里插入图片描述

文心 4：错误

百川 4：错误

多选题一

（3个回答正确，2个部分正确，2个错误）

GPT-4o：正确

通义千问 2.5：错误

GLM-4-0520：正确

智谱清言：部分正确

豆包：正确

文心 4：部分正确

在这里插入图片描述

百川 4：错误

在这里插入图片描述

多选题二

（*2个模型回答部分正确，5个回答错误*）

GPT-4o：错误

通义千问 2.5：错误

GLM-4-0520：部分正确

在这里插入图片描述

智谱清言：部分正确

豆包：错误

在这里插入图片描述

文心 4：错误

百川 4：错误

多选题三

（5个模型回答部分正确，2个回答错误）

GPT-4o：错误

在这里插入图片描述

通义千问 2.5：部分正确

在这里插入图片描述

GLM-4-0520：部分正确

智谱清言：部分正确

豆包：部分正确

文心 4：部分正确

百川 4：错误

填空题一

（*2个模型回答正确，5个回答错误*）

GPT-4o：正确

通义千问 2.5：错误

GLM-4-0520：正确

智谱清言：错误

在这里插入图片描述

豆包：错误

文心 4：错误

百川 4：错误

在这里插入图片描述

填空题二

（1个模型回答正确，6个回答错误）

GPT-4o：错误

在这里插入图片描述

通义千问 2.5：错误

GLM-4-0520：正确

智谱清言：错误

豆包：错误

文心 4：错误

在这里插入图片描述

百川 4：错误

填空题三

（*2个模型回答正确，5个回答错误*）

GPT-4o：正确

通义千问 2.5：错误

GLM-4-0520：正确

智谱清言：错误

豆包：错误

文心 4：错误

百川 4：错误

今天只要你给我的文章点赞，我私藏的大模型学习资料一样免费共享给你们，来看看有哪些东西。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】