2024高考新I卷数学 大模型评测结果出炉!

今年,复旦大学的研究团队独辟蹊径,将目光聚焦在了全新出炉的2024高考数学试卷上,并开创性地提出用高考题来评测大模型!这无疑是一个极具创意和挑战性的尝试。

众所周知,高考题以其高度的独创性和保密性著称,对考生的逻辑思维、知识储备和应试能力都是极大的考验。如果AI能够在这样的测试中取得好成绩,无疑是对其能力的最佳证明。

为此,复旦大学精心挑选了六个在各项评测中表现优异的大模型“选手”,让他们与广大考生一起,进行一场公平公正的较量!

考试规则:

  • 我们选取了网络上流出的2024高考新I卷数学试题,选择了前14个客观题作为评测题目。

  • 评分规则严格按照高考标准执行:

  • 单选题共 8 题,每小题 5 分,共 40 分。

  • 多选题共 3 题,每小题 6 分,共 18 分。全部正确选项选对得6分,部分选对的得部分分,有选错的得0分。

  • 填空题共 3 题,每小题 5 分,共 15 分。

添加图片注释,不超过 140 字(可选)

评测结果分析

在这次评测中,GPT-4o以69.86%的正确率稳居首位,其优异表现充分展示了其在解决高考题目中的强大能力。紧随其后的是Baichuan4和Qwen2-72b,分别取得了61.64%和60.27%的正确率,这两款模型虽然未能超越GPT-4o,但也展示了良好的综合能力和问题解决能力。相较之下,ChatGLM4、Gemini-1.5和九章大模型的表现则较为逊色,正确率分别为38.36%、36.99%和32.88%,这表明这些模型在面对高考题目时,尤其是复杂和多选题,仍存在较大的提升空间。

不同题型的应对能力

  1. 选择题表现: 在选择题方面,大部分模型能够准确作答,尤其是在前几道相对简单的题目上,表现较为出色。这说明这些模型在处理基础知识和逻辑判断方面具有较高的准确性。例如,GPT-4o、Baichuan4和Qwen2-72b在选择题的正确率较高,能够较好地解答这些题目。

  2. 多选题的挑战: 多选题由于选项复杂且答案可能包含多个正确选项,对模型的综合理解能力和推理能力要求更高。在这类题目上,所有模型的表现普遍较差,特别是在面对最后一题时,大部分模型都未能给出正确答案。比如,在表格中,多数模型在多选题上的正确率明显低于选择题,这反映出当前模型在处理复杂选项时,解答准确性仍然不足。

  3. 难题的解答能力: 面对少数较难的题目,模型的表现同样不尽如人意。难题通常涉及更深层次的知识理解和复杂推理过程,这对模型的综合能力提出了更高的要求。从测试结果来看,即使是表现最佳的GPT-4o,在难题上的正确率也没有达到一个较高的水平,这表明现阶段的模型在应对高难度题目时,仍有很大的提升空间。

各模型特点与优势

  1. GPT-4o: GPT-4o在这次评测中表现出色,其综合能力强,能够较好地处理各种类型的题目。这不仅显示了其在知识储备上的广泛性,还表明了其在逻辑推理和问题解决方面的强大能力。它在多选题和难题上也展现了一定的优势,尽管表现不如简单题目,但相较于其他模型,它的表现仍然更为出色。

  2. Baichuan4和Qwen2-72b: 这两款模型的表现相对均衡,尤其在简单题目上能给出准确答案,展示了其扎实的基础知识能力。但在处理复杂问题和多选题时,这两款模型的表现相对较弱,表明其在综合理解和推理能力方面还有提升空间。

  3. ChatGLM4和Gemini-1.5: ChatGLM4和Gemini-1.5的表现不如前述模型,特别是在多选题和难题上,正确率较低。这可能与其模型架构和训练数据有关,表明这些模型在面对复杂问题时,推理和综合能力需要进一步优化。

  4. 九章大模型: 九章大模型的表现最为不佳,正确率仅为32.88%。这表明该模型在应对高考题目时,整体能力较为薄弱,特别是在复杂题目和多选题上,表现尤为欠缺。其较低的正确率也反映了模型在实际应用中的局限性,需要在模型架构和数据训练方面进行大幅改进。

此次评测特别采用了最新的高考题,这些题目刚刚出炉,有效避免了之前评测中可能存在的透题现象。这样的方法不仅更加公平和客观,也更真实地反映了各大模型在面对未知问题时的实际表现。为大家选择模型带来了不错的参考价值。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值