IMO数学竞赛第5题是何方神圣？大模型全军覆没了…-CSDN博客

昨天，第65届IMO（国际数学奥林匹克竞赛）决赛成绩公布，中国队因2分之差憾失冠军。

从中国队的得分情况来看，其中第5题是中国队失分最严重的一题，该题也在网络上引发了激烈讨论。

据说这道题目遇强则强，在数学方面很有造诣的人也可能掉进它的陷阱，但答案其实非常简单。

IMO数学竞赛第5题是何方神圣？大模型全军覆没了…_ci

于是，我拿着这道题去问国内外主流AI大模型，结果全员翻车？

IMO数学竞赛第5题是何方神圣？大模型全军覆没了…_Math_02

这第5题究竟是何许题也？请看大屏幕：

IMO数学竞赛第5题是何方神圣？大模型全军覆没了…_参考资料_03

好了，看到这道题，大家是不是都跟我一个想法：啊，脑子好疼，这是什么，我怎么看不懂？

IMO数学竞赛第5题是何方神圣？大模型全军覆没了…_ci_04

别急，我这就把答案贴出来：

n＝3。

着急的小伙伴可以跳到到文章结尾去看解析～

让我们先看看，这些AI模型们的佼佼者是怎么解题的。

AI集体脑子秀逗，思路与答案割裂

首先让我们欢迎本次接受试炼的大模型选手们，它们是来自国内外的高知名度的，非常有代表性的选手。它们分别是：

Claude3.5、GPT-4o、Gemini Pro、文心一言4.0、通义千问qwen-Max、豆包、Kimi、智谱GLM-4-0520。

此外，我还选择了一部分专攻数学的改进过的模型。包括：

国内首个数学大模型九章大模型MathGPT ，以及上次AI数学奥数竞赛冠军，基于Deepseek数学模型改良的Numina-Math-7B 。

IMO数学竞赛第5题是何方神圣？大模型全军覆没了…_参考资料_05

而我使用的Prompt与原题完全一致：

憨豆特工在一个2024行2023列的方格表上做游戏. 方格表中恰有2022个方格各藏有一个坏人. 初始时,憨豆不知道坏人的位置,但是他知道除了第一行和最后一行之外,每行恰有一个坏人, 且每列至多有一个坏人. 憨豆想从第一行移动到最后一行,并进行若干轮尝试. 在每一轮尝试中,憨豆可以在第一行中任意选取一个方格出发并不断移动,他每次可以移动到与当前所在方格有公共边的方格内. (他允许移动到之前已经到达过的方格.) 若憨豆移动到一个有坏人的方格,则此轮尝试结束,并且他被传送回第一行开始新的一轮尝试. 坏人在整个游戏过程中不移动,并且憨豆可以记住每个他经过的方格内是否有坏人. 若憨豆到达最后一行的任意一个方格,则游戏结束. 求最小的正整数n,使得不论坏人的位置如何分布,憨豆总有策略可以确保他能够经过不超过n轮，尝试到达最后一行。

先贴结果(做个心理建设)，模型们全军覆没，甚至一度让我以为是答案出问题了！

接下来让我们看看这些AI模型的解题思路。根据IMO竞赛的规则，一道题目7分，你们会给这些AI打几分？

IMO数学竞赛第5题是何方神圣？大模型全军覆没了…_参考资料_06

IMO数学竞赛第5题是何方神圣？大模型全军覆没了…_ci_07

GPT-4o率先送出了一血，思维不够活跃，驴唇不对马嘴。

IMO数学竞赛第5题是何方神圣？大模型全军覆没了…_参考资料_08

被寄予厚望的Claude也倒了，感觉没读懂题啊，一边说最多2023次，一边说最少2023次。

Gemini Pro：

IMO数学竞赛第5题是何方神圣？大模型全军覆没了…_参考资料_09

这貌似出现了跟GPT-4o相同的毛病啊。

IMO数学竞赛第5题是何方神圣？大模型全军覆没了…_Math_10

IMO数学竞赛第5题是何方神圣？大模型全军覆没了…_参考资料_11

就连文心也这样，对这个问题的见解不够深啊。

通义千问MAX：

IMO数学竞赛第5题是何方神圣？大模型全军覆没了…_参考资料_12

虽然通义的答案与上面的模型不一样，但是思路还是不太对啊。

豆包：

IMO数学竞赛第5题是何方神圣？大模型全军覆没了…_参考资料_13

豆包你……也是给出了意想不到的答案啊。

Kimi：

IMO数学竞赛第5题是何方神圣？大模型全军覆没了…_ci_14

IMO数学竞赛第5题是何方神圣？大模型全军覆没了…_人工智能_15

Kimi的错误跟Claude一样，明明需要的是计算最少，偏偏选了最多的回答。

智谱GLM-4-0520：

IMO数学竞赛第5题是何方神圣？大模型全军覆没了…_Math_16

IMO数学竞赛第5题是何方神圣？大模型全军覆没了…_Math_17

IMO数学竞赛第5题是何方神圣？大模型全军覆没了…_Math_18

IMO数学竞赛第5题是何方神圣？大模型全军覆没了…_参考资料_19

看起来很长一段推理，就要得出结果了，但是然并卵……

不仅是这些大模型翻车，就连这些数学专攻模型也各执一词……

九章大模型MathGPT：

IMO数学竞赛第5题是何方神圣？大模型全军覆没了…_Math_20

Numina-Math-7B：

IMO数学竞赛第5题是何方神圣？大模型全军覆没了…_Math_21

IMO数学竞赛第5题是何方神圣？大模型全军覆没了…_人工智能_22

这些AI的答案五花八门，就是跟正确答案沾不上边。我在提问完后，我都忍不住怀疑是不是答案出问题了！怎么这么多大模型都是给的2023的答案啊！貌似这些AI都犯了一个错误：忽略了走过的格子也是可以再走的。 大模型们的翻车率，真是有点感人啊！

IMO数学竞赛第5题是何方神圣？大模型全军覆没了…_Math_23

在看完大模型们的正确率后，我突然觉得AI的智慧在短时间内是赶不上人脑的。以上大模型可以很好的作为当今“最全能”的AI代表。在上个月的“AI参加高考”的结果中，各模型的得分基本在本科线左右浮动。但我们拿出这类需要善用数学思维的富有创造力的题目时，模型们就开始胡言乱语了。

IMO数学竞赛第5题是何方神圣？大模型全军覆没了…_参考资料_24

大模型们的发展之路，还是任重而道远啊！

最后附上答案解析：

首先我们可以证明，憨豆没有两次尝试后一定成功到达最后一行的策略。在第一次尝试中，假设他首次到达第二行的某个单元格，可能该单元格有坏人，他必须立即返回第一行，他无法到达更远的单元格。在第二次尝试中，假设他首次到达第三行的另一个单元格，由于他必须从第二行的不同单元格移动过来，可能存在坏人，因此他也可能在第二次尝试中失败。因此，无法保证在两次尝试中到达最后一行。然而，当尝试次数为3时，可以采用一种策略确保到达最后一行。在第一次尝试中，憨豆沿着从第二行开始的路径移动，探索每一个单元格，找到第二行的坏人，尝试结束。如果第二行的坏人不在边缘（即它位于第二行的中间某个单元格），憨豆在第二次和第三次尝试中将采用两条路径，这两条路径将覆盖除了两个可能有坏人的单元格外的所有单元格，因此至少有一条路径能够成功。如果坏人在边缘（假设在第二行的第一个单元格），则憨豆在第二次尝试中将采取另一条路径，从第二个单元格开始，避开已知的坏人单元格。如果这条路径没有遇到坏人，憨豆将赢得游戏。如果遇到坏人，他将在第三次尝试中采取一条策略，确保绕过该坏人单元格，并最终到达最后一行。总结来说，尽管存在许多不确定性，但通过策略性地探索和记忆坏人的位置，憨豆可以确保在第三次尝试或更早的尝试中到达最后一行。

在YouTube上也有比较详细的题目讲解，大家也可以去看一下。