不到一年,最聪明的AI模型智商从96上升到136了!超过99%的人类

不到一年,最聪明的AI模型智商从96上升到136了!超过99%的人类

原创 Maxim Lott 匠程 2025年04月21日 23:31 北京

作者:Maxim Lott
来源:转载翻译

编者按:

门萨测试是由门萨国际设计的高难度智商测试,用于筛选智商排名前2%的人以加入门萨俱乐部。

本文作者长期追踪AI智商变化。他先用公开的门萨智商测试,发现OpenAI最新发布的o3得分136,达人类前1%

为减少训练数据干扰,他与门萨成员自制线下测试(测试不在AI训练数据)。o3得分为116,处于人类前15%,而这仅仅只用了一年!

要知道,爱因斯坦的智商约160。未来,人类和AI相比如何存在?


我在我的网站上跟踪AI智商已有一年左右。

OpenAI发布的最新付费模型o3,在测试中拿下了惊人的136分

图片

智商136在人类中属于顶尖的1%了。

相比之下,11个月前,也就是2024年5月,领先的AI在同一测试中的表现如下:

图片

忽略蓝色曲线的形状差异,那只是设计上的小调整

进步之快,让人难以想象。

不过需要指出,这些结果来自挪威门萨智商测试。这是一个公开测试,答案确实能在网上找到(尽管不太容易)。

为了解决这个问题,去年我与门萨成员合作,从头设计了一个仅限线下的测试,确保AI训练数据无法触及。

然后,我通过邀请 Maximum Truth 的读者同时回答两个测试的题目,校准了两个测试的评分标准,使其难度相当。

以下是AI使用完全不在训练数据集中的题目,测试后的结果

图片

现在,o3的智商得分是116,跻身人类前15%

作为对比,Maximum Truth读者的中位智商为104

再看看11个月前,领先AI在同一测试中的成绩——那时候,我们在智商测试上还能稍胜AI一筹:

图片

此测试为全新设计,未出现在任何AI训练数据中

短短11个月,进步之大,简直不可思议。

我把这些发现分享给了Marginal Revolution的Tyler Cowen,他进一步指出:“当然,这些测试低估了知识广度的价值,而o3显然在广度上无人能及。”

他说的完全正确。

我对这些结果的总结是:

OpenAI的o3模型就像一个智商116的人在从零开始推理,但更厉害的是,它仿佛集全人类的知识于一身。

当面对已有答案的问题时,o3的表现更像是智商136的人。

不过,这很大程度上得益于它脑海中存储的全球知识库,包括最聪明人类的研究成果,即便它可能无法从头解决这些问题。

仍有人说:“AI只会鹦鹉学舌,不会真正思考。”

这话不对。

AI的确不会“感受”情绪,但它们绝对能“思考”——它们能通过推导复杂模式,解决前所未见的问题。

我还有更多想分享的内容,比如AI视觉技术的进步如何让AI与物理世界互动,以及AI在政治领域的动态,这些留待日后文章详谈。

就像1995年互联网被普遍忽视一样,AI会带来巨大影响,但如今它仍被远远低估。

原文:https://www.maximumtruth.org/p/skyrocketing-ai-intelligence-chatgpts

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

强化学习曾小健

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值