12个国产大模型大战高考数学,意外炸出个大bug

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

继国产大模型挑战高考作文之后,是时候再战一下高考数学了。

数学高考Ⅰ卷的题目,目前已经陆陆续续在网上有所公布(图片格式)。

16b2a0d794c53d67974d39506d723ad7.png

那么现在,是时候考验国产大模型们的数学能力了。

有请“选手们”登场——

Kimi通义千问文心一言豆包智谱清言百小应讯飞星火商量腾讯元宝天工海螺AI万知

c61d9390bd5dfd63bd5b7394d4782d65.jpeg

国产大模型 vs 高考数学选择题

根据数学题目类型的不同,我们先来小试牛刀一下选择题

测评的方式是将题目(图片格式)“喂”给国产大模型们,要求它们给出相应题目的答案:

查看题目,给出第1题到第8题的答案。

接下来,我们就来一同看下国产大模型们的表现。

Kimi

f2d66e9fa62f2240c83f778229bf8c98.jpeg

通义千问

cf58cda93ef9d643c1d474a3a3b19fe1.jpeg

豆包

40abc14dfd79a6bb6bbae7ebd6de635e.jpeg

智谱清言

300b9ca4a8c080d4d17b75a9c0457785.jpeg

百小应

ca7db8a5704c1975ed091ec75a97058a.jpeg

讯飞星火

95537f88c6bfcba22106dabb7a5c27f9.jpeg

商量

5146e1285a1beb10fe007282644ab985.png

腾讯元宝

5007eae6f3f4fed895c41065b9a44e7f.jpeg

海螺AI

7d16e3a6565d9c3b271a70a2c5bfb4a0.jpeg

万知

70de1eb615a2d606e7fe73b47a17353a.jpeg

不难看出,很多国产大模型还未做数学题,先败在了AI识图这个步骤,无法生成答案。

(PS:有几位选手测试时因为无法识别,未能完成答题,因此没有放出结果。)

那么我们最后来看下“踢馆选手”——GPT-4o

4fa50b0b719da0824506d594f7c00b33.jpeg

国产大模型 vs 数学大题

鉴于一些国产大模型AI识图有点困难,我们这次直接先把这次高考的大题题目文字给copy出来,再让它们作答:

设n为正整数,数列 ( a1, a_2, \cdots, a{4m+2} ) 是公差不为0的等差数列。若从中抽去项 ( ai ) 和 ( a_j ) (i < j) 后剩余的 ( 4m ) 项可被平均分为 m 组,且每组的 4 个数都能构成等差数列,则称数列 ( a_1, a_2, \cdots, a{4m+2} ) 是 (i, j) - 可分数列。

(1) 写出所有的 (i, j) (1 ≤ i < j ≤ 6),使得数列 ( a_1, a_2, a_3, a_4, a_5, a_6 ) 是 (i, j) - 可分数列;

(2) 当 ( m = 3 ) 时,证明:数列 ( a1, a_2, \cdots, a{13} ) 是 (2, 13) - 可分数列;

(3) 设 ( a1, a_2, \cdots, a{4m+2} ) 是 (i, j) - 可分数列。记数列 ( a1, a_2, \cdots, a{4m+2} ) 中任取两个数和 i (i < j),则数列是 (i, j) - 可分数列的概率为 ( p_n ),证明:( p_n \geq \frac{1}{8} )。

aa9a10881447b3db550a2884808458f7.jpeg

接下来,我们再来看下国产大模型们的表现。

Kimi

c8ad19cc608a8d616026ba5e1645a27a.jpeg

通义千问

96a4082b43132a397d9a3aadacf14f8b.jpeg

文心一言

52f1d0d2467fcc60d3bf8391e4e73698.jpeg

豆包

e74bac2317b3b82792ed795b50150695.jpeg

智谱清言

909d119b757a7d757603cb3ff54fb618.jpeg

百小应

548b8cb3fb8bdbe7aefb3a85d76a2bba.jpeg

讯飞星火

84e3b28924b88866dbf11a0ab4ac44b4.jpeg

商量

a643efde9070a729fdc7b4b0dcb29901.jpeg

腾讯元宝

82f198cc303b1554da6e331e237b1b6a.jpeg

天工

13d362595b1ad05ed62a15a450ca62da.png

海螺AI

f2c99729f6b28f76729102cdaef282c3.png

万知

50c1323f1358c5cdadcd31723e62076c.jpeg

最后,还是有请“踢馆选手”——GPT-4o

39d5244f34be50ced53d743dadaabff8.png

那么,你觉得国产大模型们,识图+解数学题,哪家比较好一点呢?

最后,关于AI智能助手,这里也有一份最新用户数据分析报告供你参考:
https://mp.weixin.qq.com/s/sYxbvown5qLBnEs7zIR6Bg

量子位年度AI主题策划正在征集中!

欢迎投稿专题 一千零一个AI应365行AI落地方案

或与我们分享你在寻找的AI产品,或发现的AI新动向

1bb2d37ad781c201e4f2539b7032af2d.png

点这里👇关注我,记得标星哦~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值