不到一年,最聪明的AI模型智商从96上升到136了!超过99%的人类
原创 Maxim Lott 匠程 2025年04月21日 23:31 北京
作者:Maxim Lott
来源:转载翻译
编者按:
门萨测试是由门萨国际设计的高难度智商测试,用于筛选智商排名前2%的人以加入门萨俱乐部。
本文作者长期追踪AI智商变化。他先用公开的门萨智商测试,发现OpenAI最新发布的o3得分136,达人类前1%。
为减少训练数据干扰,他与门萨成员自制线下测试(测试不在AI训练数据)。o3得分为116,处于人类前15%,而这仅仅只用了一年!
要知道,爱因斯坦的智商约160。未来,人类和AI相比如何存在?
我在我的网站上跟踪AI智商已有一年左右。
OpenAI发布的最新付费模型o3,在测试中拿下了惊人的136分。
智商136在人类中属于顶尖的1%了。
相比之下,11个月前,也就是2024年5月,领先的AI在同一测试中的表现如下:
忽略蓝色曲线的形状差异,那只是设计上的小调整
进步之快,让人难以想象。
不过需要指出,这些结果来自挪威门萨智商测试。这是一个公开测试,答案确实能在网上找到(尽管不太容易)。
为了解决这个问题,去年我与门萨成员合作,从头设计了一个仅限线下的测试,确保AI训练数据无法触及。
然后,我通过邀请 Maximum Truth 的读者同时回答两个测试的题目,校准了两个测试的评分标准,使其难度相当。
以下是AI使用完全不在训练数据集中的题目,测试后的结果
现在,o3的智商得分是116,跻身人类前15%。
作为对比,Maximum Truth读者的中位智商为104。
再看看11个月前,领先AI在同一测试中的成绩——那时候,我们在智商测试上还能稍胜AI一筹:
此测试为全新设计,未出现在任何AI训练数据中
短短11个月,进步之大,简直不可思议。
我把这些发现分享给了Marginal Revolution的Tyler Cowen,他进一步指出:“当然,这些测试低估了知识广度的价值,而o3显然在广度上无人能及。”
他说的完全正确。
我对这些结果的总结是:
OpenAI的o3模型就像一个智商116的人在从零开始推理,但更厉害的是,它仿佛集全人类的知识于一身。
当面对已有答案的问题时,o3的表现更像是智商136的人。
不过,这很大程度上得益于它脑海中存储的全球知识库,包括最聪明人类的研究成果,即便它可能无法从头解决这些问题。
仍有人说:“AI只会鹦鹉学舌,不会真正思考。”
这话不对。
AI的确不会“感受”情绪,但它们绝对能“思考”——它们能通过推导复杂模式,解决前所未见的问题。
我还有更多想分享的内容,比如AI视觉技术的进步如何让AI与物理世界互动,以及AI在政治领域的动态,这些留待日后文章详谈。
就像1995年互联网被普遍忽视一样,AI会带来巨大影响,但如今它仍被远远低估。
原文:https://www.maximumtruth.org/p/skyrocketing-ai-intelligence-chatgpts