首个AI高考全卷评测结果发布，数学全部不及格，成最大难题！

疯狂的超级玛丽

于 2024-08-21 16:26:24 发布

阅读量228

点赞数 2

文章标签：高考人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_86168842/article/details/141396820

版权

首个 AI 高考全卷评测结果已经发布，Qwen2-72B、GPT-4o 及书生·浦语2.0 文曲星（InternLM2-20B-WQX）成为本次大模型高考的前三甲。

如果你正在学习Python并且找不到方向的话可以试试我这一份学习方法+籽料呀！点击领取（不要米米）

大部分大模型在语文和英语科目上表现良好，但在数学科目上还有待加强。

在语文和英语科目上，AI 展现出了较强语言能力，阿里巴巴开源的 Qwen2 系列 MoE 对话模型、GPT-4o 以及书生·浦语2.0 等模型在这两个科目上的平均得分均超过了 105 分，显示出 AI 在理解和生成语言方面的潜力。

Qwen2-72B 语文达到了 124分，英语 109 分。
GPT-4o 语文 111.5 分，英语达到了 111.5 分。

然而，当转向数学科目时，AI 的表现却不尽如人意，InternLM2-20B-WQX 在数学单科上排第一为 75 分，GPT-4o 与 Qwen2-72B 分别为 73 分和 70 分，所有参与评测的AI模型在数学上均未达到及格线。

这一结果凸显了 AI 在复杂推理和计算能力上的局限性。

尽管 AI 在数学上的表现尚有提升空间，但这次评测无疑为AI的未来发展提供了宝贵的参考。

数学能力的提高不仅关系到AI在金融、工业等专业领域的应用，也是 AI 技术成熟度的重要标志。

语文：

模型的现代文阅读理解能力普遍较强，但是不同模型的文言文阅读理解能力差距较大。
大模型作文更像问答题，虽然有针对性但缺乏修饰，几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物素材等手法。
多数模型无法理解“本体”“喻体”“暗喻”等语文概念。语言中的一些“潜台词”，大模型尚无法完全理解。

数学：

大模型的主观题回答相对凌乱，且过程具有迷惑性，甚至出现过程错误但得到正确答案的情况。
大模型的公式记忆能力较强，但是无法在解题过程中灵活引用。

英语：

英语整体表现良好，但部分模型由于不适应题型，在七选五、完形填空等题型得分率较低。
大模型英语作文普遍存在因超出字数限制而扣分的情况，而人类考生多因为字数不够扣分。

读者福利：对Python感兴趣的童鞋，为此小编专门给大家准备好了Python全套的学习资料《完整版的Python的全套学习资料》（安全链接，放心点击）

面试宝典

疯狂的超级玛丽

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
首个AI高考全卷评测结果发布，数学全部不及格，成最大难题！

首个 AI 高考全卷评测结果已经发布，Qwen2-72B、GPT-4o 及书生·浦语2.0 文曲星（InternLM2-20B-WQX）成为本次大模型高考的前三甲。大部分大模型在语文和英语科目上表现良好，但在数学科目上还有待加强。在语文和英语科目上，AI 展现出了较强语言能力，阿里巴巴开源的 Qwen2 系列 MoE 对话模型、GPT-4o 以及书生·浦语2.0 等模型在这两个科目上的平均得分均超过了 105 分，显示出 AI 在理解和生成语言方面的潜力。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。