昨天,第65届IMO(国际数学奥林匹克竞赛)决赛成绩公布,中国队因2分之差憾失冠军。

从中国队的得分情况来看,其中第5题是中国队失分最严重的一题,该题也在网络上引发了激烈讨论。

据说这道题目遇强则强,在数学方面很有造诣的人也可能掉进它的陷阱,但答案其实非常简单。

IMO数学竞赛第5题是何方神圣?大模型全军覆没了…_ci

于是,我拿着这道题去问国内外主流AI大模型,结果全员翻车?

IMO数学竞赛第5题是何方神圣?大模型全军覆没了…_Math_02

这第5题究竟是何许题也?请看大屏幕:

IMO数学竞赛第5题是何方神圣?大模型全军覆没了…_参考资料_03

好了,看到这道题,大家是不是都跟我一个想法:啊,脑子好疼,这是什么,我怎么看不懂?

IMO数学竞赛第5题是何方神圣?大模型全军覆没了…_ci_04

别急,我这就把答案贴出来:

n=3。

着急的小伙伴可以跳到到文章结尾去看解析~

让我们先看看,这些AI模型们的佼佼者是怎么解题的。

AI集体脑子秀逗,思路与答案割裂

首先让我们欢迎本次接受试炼的大模型选手们,它们是来自国内外的高知名度的,非常有代表性的选手。它们分别是:

Claude3.5、GPT-4o、Gemini Pro、 文心一言4.0、通义千问qwen-Max、豆包、Kimi、智谱GLM-4-0520。

此外,我还选择了一部分专攻数学的改进过的模型。包括:

国内首个数学大模型九章大模型MathGPT ,以及上次AI数学奥数竞赛冠军,基于Deepseek数学模型改良的Numina-Math-7B

IMO数学竞赛第5题是何方神圣?大模型全军覆没了…_参考资料_05

而我使用的Prompt与原题完全一致:

憨豆特工在一个2024行2023列的方格表上做游戏. 方格表中恰有2022个方格各藏有一个坏人. 初始时,憨豆不知道坏人的位置,但是他知道除了第一行和最后一行之外,每行恰有一个坏人, 且每列至多有一个坏人. 憨豆想从第一行移动到最后一行,并进行若干轮尝试. 在每一轮尝试中,憨豆可以在第一行中任意选取一个方格出发并不断移动,他每次可以移动到与当前所在方格有公共边的方格内. (他允许移动到之前已经到达过的方格.) 若憨豆移动到一个有坏人的方格,则此轮尝试结束,并且他被传送回第一行开始新的一轮尝试. 坏人在整个游戏过程中不移动,并且憨豆可以记住每个他经过的方格内是否有坏人. 若憨豆到达最后一行的任意一个方格,则游戏结束. 求最小的正整数n,使得不论坏人的位置如何分布,憨豆总有策略可以确保他能够经过不超过n轮,尝试到达最后一行。

先贴结果(做个心理建设),模型们全军覆没,甚至一度让我以为是答案出问题了!

接下来让我们看看这些AI模型的解题思路。根据IMO竞赛的规则,一道题目7分,你们会给这些AI打几分?

IMO数学竞赛第5题是何方神圣?大模型全军覆没了…_参考资料_06

IMO数学竞赛第5题是何方神圣?大模型全军覆没了…_ci_07

GPT-4o率先送出了一血,思维不够活跃,驴唇不对马嘴。

IMO数学竞赛第5题是何方神圣?大模型全军覆没了…_参考资料_08

被寄予厚望的Claude也倒了,感觉没读懂题啊,一边说最多2023次,一边说最少2023次。

Gemini Pro:

IMO数学竞赛第5题是何方神圣?大模型全军覆没了…_参考资料_09

这貌似出现了跟GPT-4o相同的毛病啊。

IMO数学竞赛第5题是何方神圣?大模型全军覆没了…_Math_10

IMO数学竞赛第5题是何方神圣?大模型全军覆没了…_参考资料_11

就连文心也这样,对这个问题的见解不够深啊。

通义千问MAX:

IMO数学竞赛第5题是何方神圣?大模型全军覆没了…_参考资料_12

虽然通义的答案与上面的模型不一样,但是思路还是不太对啊。

豆包:

IMO数学竞赛第5题是何方神圣?大模型全军覆没了…_参考资料_13

豆包你……也是给出了意想不到的答案啊。

Kimi:

IMO数学竞赛第5题是何方神圣?大模型全军覆没了…_ci_14

IMO数学竞赛第5题是何方神圣?大模型全军覆没了…_人工智能_15

Kimi的错误跟Claude一样,明明需要的是计算最少,偏偏选了最多的回答。

智谱GLM-4-0520:

IMO数学竞赛第5题是何方神圣?大模型全军覆没了…_Math_16

IMO数学竞赛第5题是何方神圣?大模型全军覆没了…_Math_17

IMO数学竞赛第5题是何方神圣?大模型全军覆没了…_Math_18

IMO数学竞赛第5题是何方神圣?大模型全军覆没了…_参考资料_19

看起来很长一段推理,就要得出结果了,但是然并卵……

不仅是这些大模型翻车,就连这些数学专攻模型也各执一词……

九章大模型MathGPT:

IMO数学竞赛第5题是何方神圣?大模型全军覆没了…_Math_20

Numina-Math-7B:

IMO数学竞赛第5题是何方神圣?大模型全军覆没了…_Math_21

IMO数学竞赛第5题是何方神圣?大模型全军覆没了…_人工智能_22

这些AI的答案五花八门,就是跟正确答案沾不上边。我在提问完后,我都忍不住怀疑是不是答案出问题了!怎么这么多大模型都是给的2023的答案啊!貌似这些AI都犯了一个错误:忽略了走过的格子也是可以再走的。 大模型们的翻车率,真是有点感人啊!

IMO数学竞赛第5题是何方神圣?大模型全军覆没了…_Math_23

在看完大模型们的正确率后,我突然觉得AI的智慧在短时间内是赶不上人脑的。以上大模型可以很好的作为当今“最全能”的AI代表。在上个月的“AI参加高考”的结果中,各模型的得分基本在本科线左右浮动。但我们拿出这类需要善用数学思维的富有创造力的题目时,模型们就开始胡言乱语了。

IMO数学竞赛第5题是何方神圣?大模型全军覆没了…_参考资料_24

大模型们的发展之路,还是任重而道远啊!

最后附上答案解析:

首先我们可以证明,憨豆没有两次尝试后一定成功到达最后一行的策略。在第一次尝试中,假设他首次到达第二行的某个单元格,可能该单元格有坏人,他必须立即返回第一行,他无法到达更远的单元格。在第二次尝试中,假设他首次到达第三行的另一个单元格,由于他必须从第二行的不同单元格移动过来,可能存在坏人,因此他也可能在第二次尝试中失败。因此,无法保证在两次尝试中到达最后一行。然而,当尝试次数为3时,可以采用一种策略确保到达最后一行。在第一次尝试中,憨豆沿着从第二行开始的路径移动,探索每一个单元格,找到第二行的坏人,尝试结束。如果第二行的坏人不在边缘(即它位于第二行的中间某个单元格),憨豆在第二次和第三次尝试中将采用两条路径,这两条路径将覆盖除了两个可能有坏人的单元格外的所有单元格,因此至少有一条路径能够成功。如果坏人在边缘(假设在第二行的第一个单元格),则憨豆在第二次尝试中将采取另一条路径,从第二个单元格开始,避开已知的坏人单元格。如果这条路径没有遇到坏人,憨豆将赢得游戏。如果遇到坏人,他将在第三次尝试中采取一条策略,确保绕过该坏人单元格,并最终到达最后一行。总结来说,尽管存在许多不确定性,但通过策略性地探索和记忆坏人的位置,憨豆可以确保在第三次尝试或更早的尝试中到达最后一行。

在YouTube上也有比较详细的题目讲解,大家也可以去看一下。

题目讲解:
  https://www.youtube.com/watch?v=wfQkk9WktGE

IMO数学竞赛第5题是何方神圣?大模型全军覆没了…_人工智能_25

IMO数学竞赛第5题是何方神圣?大模型全军覆没了…_参考资料_26

参考资料

 [1] https://www.imo-official.org/