首个AI高考全卷评测结果发布，数学全部不及格，成最大难题！-CSDN博客

👇我的小册 45章教程:(小白零基础用Python量化股票分析小册) ,原价299，限时特价2杯咖啡，满100人涨10元。

首个 AI 高考全卷评测结果已经发布，Qwen2-72B、GPT-4o 及书生·浦语2.0 文曲星（InternLM2-20B-WQX）成为本次大模型高考的前三甲。

大部分大模型在语文和英语科目上表现良好，但在数学科目上还有待加强。

在语文和英语科目上，AI 展现出了较强语言能力，阿里巴巴开源的 Qwen2 系列 MoE 对话模型、GPT-4o 以及书生·浦语2.0 等模型在这两个科目上的平均得分均超过了 105 分，显示出 AI 在理解和生成语言方面的潜力。

Qwen2-72B 语文达到了 124分，英语 109 分。
GPT-4o 语文 111.5 分，英语达到了 111.5 分。

然而，当转向数学科目时，AI 的表现却不尽如人意，InternLM2-20B-WQX 在数学单科上排第一为 75 分，GPT-4o 与 Qwen2-72B 分别为 73 分和 70 分，所有参与评测的AI模型在数学上均未达到及格线。

这一结果凸显了 AI 在复杂推理和计算能力上的局限性。

尽管 AI 在数学上的表现尚有提升空间，但这次评测无疑为AI的未来发展提供了宝贵的参考。

数学能力的提高不仅关系到AI在金融、工业等专业领域的应用，也是 AI 技术成熟度的重要标志。

语文：

模型的现代文阅读理解能力普遍较强，但是不同模型的文言文阅读理解能力差距较大。
大模型作文更像问答题，虽然有针对性但缺乏修饰，几乎不存在人类考生都会使用举例论证、引用论证、名人名言和人物素材等手法。
多数模型无法理解“本体”“喻体”“暗喻”等语文概念。语言中的一些“潜台词”，大模型尚无法完全理解。

数学：

大模型的主观题回答相对凌乱，且过程具有迷惑性，甚至出现过程错误但得到正确答案的情况。
大模型的公式记忆能力较强，但是无法在解题过程中灵活引用。

英语：

英语整体表现良好，但部分模型由于不适应题型，在七选五、完形填空等题型得分率较低。
大模型英语作文普遍存在因超出字数限制而扣分的情况，而人类考生多因为字数不够扣分。

参考链接：https://www.shlab.org.cn/news/5443927

公开评测细节可访问 :https://github.com/open-compass/GAOKAO-Eval

最后推荐一下我们团队写的量化小册的内容，45篇内容！从Python安装，入门，数据分析，爬取股票基金的历史+实时数据，以及如何写一个简单量化策略，策略回测，如何看资金曲线统统都有介绍！非常超值！

欢迎订阅：原价299 早鸟价2杯咖啡钱，即可永久阅读。满400人又要涨价了，现在的价格非常非常低，只要2杯奶茶，就可以终身订阅+课程源码，还有永久陪伴群。48小时无理由退款，放心食用！

往期推荐
量化: 如何用Python爬取创业板历史+实时股票数据！｜实战股票分析篇利用Pandas 9招挖掘五粮液股价！｜实战股票数据分析篇 Pandas滚动操作 ｜量化股票第一步，用Python画股票K线，双均线图，可视化你的股票数据！｜如何用Python爬取全部800多只ETF基金数据！｜如何用Python写一个双均线策略 ｜如何用Python开发一个多策略机器人！上篇！｜Python量化系列-用布林策略买五粮液能赚多少钱？｜只要4秒钟！用Python 获取上证指数34年的历史日线数据！

入门: 最全的零基础学Python的问题  | 零基础学了8个月的Python  | 实战项目 |学Python就是这条捷径

干货:爬取豆瓣短评，电影《后来的我们》 | 38年NBA最佳球员分析 | 从万众期待到口碑扑街！唐探3令人失望 | 笑看新倚天屠龙记 | 灯谜答题王｜用Python做个海量小姐姐素描图｜碟中谍这么火，我用机器学习做个迷你推荐系统电影

趣味:弹球游戏 | 九宫格 | 漂亮的花 | 两百行Python《天天酷跑》游戏!

AI: 会做诗的机器人 | 给图片上色 | 预测收入 | 碟中谍这么火，我用机器学习做个迷你推荐系统电影

小工具: Pdf转Word，轻松搞定表格和水印！ | 一键把html网页保存为pdf！| 再见PDF提取收费！ | 用90行代码打造最强PDF转换器，word、PPT、excel、markdown、html一键转换 | 制作一款钉钉低价机票提示器！｜60行代码做了一个语音壁纸切换器天天看小姐姐！