AI 2025新一卷数学题大比拼:谁是尖子生?谁又“送分题”都翻车?

随着全国高考落下帷幕,一场属于AI大模型的“数学高考”也悄然打响。此次测试模拟2025年高考数学新课标I卷,共设置14道客观题(8道单选、3道多选、3道填空),总分73分。参与角逐的包括字节跳动豆包、腾讯元宝(T1)、阿里通义、百度文心X1Turbo、深度求索DeepSeek以及OpenAI的o3,测试严格参照高考评判标准。

结果显示,豆包和元宝并列第一,均拿下68分,仅在一道单选题上失分,正确率达93%。DeepSeek和通义分别拿下63分和62分,表现稳定。而百度文心X1Turbo失误频频,止步于51分。最令人意外的是,OpenAI的o3仅得34分,正确率不足50%,成为此次测试中的“垫底生”。

分项表现:

单选题:豆包、元宝、通义、文心X1Turbo齐获满分(35分);DeepSeek因图识别问题失分;o3多次翻车。

多选题:豆包、DeepSeek、元宝全中;通义因步骤简略失一题;文心X1Turbo两题答错,一题无回应;o3全部答错。

填空题:除文心X1Turbo外,其余四款模型均答对全部填空题;文心因“画蛇添足”失分。

与2024年相比,除o3外其余模型均突破及格线,表现出色,尤其是推理链条清晰、验证机制增强。例如今年多数模型能在计算出错后自我纠正,重新验证过程。除了通义在“解释过程”方面略显简略外,其他模型都能完整展示思路,帮助用户理解题目逻辑。

不过,测试也揭示出共性短板,如计算精度、图形识别能力、对题干条件的敏感性仍有待加强。

专家点评:

专家认为,这场AI高考虽然只是模拟,却真实反映出当前大模型在数学和逻辑推理能力上的进步。未来,随着推理增强技术、多模态理解能力的提升,AI有望逐步弥补“偏科”问题,全面融入教育、科研、金融等对精度要求极高的领域。

网友们也热议不断:“国产AI终于崛起!”“OpenAI这次真的输在基础题上了?”“明年能不能考作文?”

想了解更多关于大模型的性能测试、AI产品评测与推荐,可访问 AIbase 平台,这里汇聚最强 AI 工具与资源,帮你高效对接适配模型,开启智能体验之旅!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值