2024高考新I卷数学大模型评测结果出炉！

最新推荐文章于 2024-07-11 03:29:05 发布

AIBox365

最新推荐文章于 2024-07-11 03:29:05 发布

阅读量35

点赞数

文章标签：人工智能 chatgpt

原文链接：https://www.aibox365.cn/kuaixun/96.html

版权

今年，复旦大学的研究团队独辟蹊径，将目光聚焦在了全新出炉的2024高考数学试卷上，并开创性地提出用高考题来评测大模型！这无疑是一个极具创意和挑战性的尝试。

众所周知，高考题以其高度的独创性和保密性著称，对考生的逻辑思维、知识储备和应试能力都是极大的考验。如果AI能够在这样的测试中取得好成绩，无疑是对其能力的最佳证明。

为此，复旦大学精心挑选了六个在各项评测中表现优异的大模型“选手”，让他们与广大考生一起，进行一场公平公正的较量！

考试规则:

我们选取了网络上流出的2024高考新I卷数学试题，选择了前14个客观题作为评测题目。
评分规则严格按照高考标准执行：
单选题共 8 题，每小题 5 分，共 40 分。
多选题共 3 题，每小题 6 分，共 18 分。全部正确选项选对得6分，部分选对的得部分分，有选错的得0分。
填空题共 3 题，每小题 5 分，共 15 分。

添加图片注释，不超过 140 字（可选）

评测结果分析

在这次评测中，GPT-4o以69.86%的正确率稳居首位，其优异表现充分展示了其在解决高考题目中的强大能力。紧随其后的是Baichuan4和Qwen2-72b，分别取得了61.64%和60.27%的正确率，这两款模型虽然未能超越GPT-4o，但也展示了良好的综合能力和问题解决能力。相较之下，ChatGLM4、Gemini-1.5和九章大模型的表现则较为逊色，正确率分别为38.36%、36.99%和32.88%，这表明这些模型在面对高考题目时，尤其是复杂和多选题，仍存在较大的提升空间。

不同题型的应对能力

选择题表现：在选择题方面，大部分模型能够准确作答，尤其是在前几道相对简单的题目上，表现较为出色。这说明这些模型在处理基础知识和逻辑判断方面具有较高的准确性。例如，GPT-4o、Baichuan4和Qwen2-72b在选择题的正确率较高，能够较好地解答这些题目。
多选题的挑战：多选题由于选项复杂且答案可能包含多个正确选项，对模型的综合理解能力和推理能力要求更高。在这类题目上，所有模型的表现普遍较差，特别是在面对最后一题时，大部分模型都未能给出正确答案。比如，在表格中，多数模型在多选题上的正确率明显低于选择题，这反映出当前模型在处理复杂选项时，解答准确性仍然不足。
难题的解答能力：面对少数较难的题目，模型的表现同样不尽如人意。难题通常涉及更深层次的知识理解和复杂推理过程，这对模型的综合能力提出了更高的要求。从测试结果来看，即使是表现最佳的GPT-4o，在难题上的正确率也没有达到一个较高的水平，这表明现阶段的模型在应对高难度题目时，仍有很大的提升空间。

各模型特点与优势

GPT-4o： GPT-4o在这次评测中表现出色，其综合能力强，能够较好地处理各种类型的题目。这不仅显示了其在知识储备上的广泛性，还表明了其在逻辑推理和问题解决方面的强大能力。它在多选题和难题上也展现了一定的优势，尽管表现不如简单题目，但相较于其他模型，它的表现仍然更为出色。
Baichuan4和Qwen2-72b：这两款模型的表现相对均衡，尤其在简单题目上能给出准确答案，展示了其扎实的基础知识能力。但在处理复杂问题和多选题时，这两款模型的表现相对较弱，表明其在综合理解和推理能力方面还有提升空间。
ChatGLM4和Gemini-1.5： ChatGLM4和Gemini-1.5的表现不如前述模型，特别是在多选题和难题上，正确率较低。这可能与其模型架构和训练数据有关，表明这些模型在面对复杂问题时，推理和综合能力需要进一步优化。
九章大模型：九章大模型的表现最为不佳，正确率仅为32.88%。这表明该模型在应对高考题目时，整体能力较为薄弱，特别是在复杂题目和多选题上，表现尤为欠缺。其较低的正确率也反映了模型在实际应用中的局限性，需要在模型架构和数据训练方面进行大幅改进。

此次评测特别采用了最新的高考题，这些题目刚刚出炉，有效避免了之前评测中可能存在的透题现象。这样的方法不仅更加公平和客观，也更真实地反映了各大模型在面对未知问题时的实际表现。为大家选择模型带来了不错的参考价值。

AIBox365

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2024高考新I卷数学大模型评测结果出炉！

相较之下，ChatGLM4、Gemini-1.5和九章大模型的表现则较为逊色，正确率分别为38.36%、36.99%和32.88%，这表明这些模型在面对高考题目时，尤其是复杂和多选题，仍存在较大的提升空间。比如，在表格中，多数模型在多选题上的正确率明显低于选择题，这反映出当前模型在处理复杂选项时，解答准确性仍然不足。从测试结果来看，即使是表现最佳的GPT-4o，在难题上的正确率也没有达到一个较高的水平，这表明现阶段的模型在应对高难度题目时，仍有很大的提升空间。为大家选择模型带来了不错的参考价值。
复制链接

扫一扫