AI 2025新一卷数学题大比拼：谁是尖子生？谁又“送分题”都翻车？

AIbase2024

于 2025-06-09 14:12:54 发布

阅读量146

点赞数 7

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AIbase2024/article/details/148533789

版权

随着全国高考落下帷幕，一场属于AI大模型的“数学高考”也悄然打响。此次测试模拟2025年高考数学新课标I卷，共设置14道客观题（8道单选、3道多选、3道填空），总分73分。参与角逐的包括字节跳动豆包、腾讯元宝（T1）、阿里通义、百度文心X1Turbo、深度求索DeepSeek以及OpenAI的o3，测试严格参照高考评判标准。

结果显示，豆包和元宝并列第一，均拿下68分，仅在一道单选题上失分，正确率达93%。DeepSeek和通义分别拿下63分和62分，表现稳定。而百度文心X1Turbo失误频频，止步于51分。最令人意外的是，OpenAI的o3仅得34分，正确率不足50%，成为此次测试中的“垫底生”。

分项表现：

单选题：豆包、元宝、通义、文心X1Turbo齐获满分（35分）；DeepSeek因图识别问题失分；o3多次翻车。

多选题：豆包、DeepSeek、元宝全中；通义因步骤简略失一题；文心X1Turbo两题答错，一题无回应；o3全部答错。

填空题：除文心X1Turbo外，其余四款模型均答对全部填空题；文心因“画蛇添足”失分。

与2024年相比，除o3外其余模型均突破及格线，表现出色，尤其是推理链条清晰、验证机制增强。例如今年多数模型能在计算出错后自我纠正，重新验证过程。除了通义在“解释过程”方面略显简略外，其他模型都能完整展示思路，帮助用户理解题目逻辑。

不过，测试也揭示出共性短板，如计算精度、图形识别能力、对题干条件的敏感性仍有待加强。

专家点评：

专家认为，这场AI高考虽然只是模拟，却真实反映出当前大模型在数学和逻辑推理能力上的进步。未来，随着推理增强技术、多模态理解能力的提升，AI有望逐步弥补“偏科”问题，全面融入教育、科研、金融等对精度要求极高的领域。

网友们也热议不断：“国产AI终于崛起！”“OpenAI这次真的输在基础题上了？”“明年能不能考作文？”

想了解更多关于大模型的性能测试、AI产品评测与推荐，可访问 AIbase 平台，这里汇聚最强 AI 工具与资源，帮你高效对接适配模型，开启智能体验之旅！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。