不到一年，最聪明的AI模型智商从96上升到136了！超过99%的人类

强化学习曾小健

于 2025-04-22 00:03:07 发布

阅读量378

点赞数 4

文章标签：人工智能机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_37574187/article/details/147405055

版权

不到一年，最聪明的AI模型智商从96上升到136了！超过99%的人类

原创 Maxim Lott 匠程 2025年04月21日 23:31 北京

作者：Maxim Lott
来源：转载翻译

编者按：

门萨测试是由门萨国际设计的高难度智商测试，用于筛选智商排名前2%的人以加入门萨俱乐部。

本文作者长期追踪AI智商变化。他先用公开的门萨智商测试，发现OpenAI最新发布的o3得分136，达人类前1%。

为减少训练数据干扰，他与门萨成员自制线下测试（测试不在AI训练数据）。o3得分为116，处于人类前15%，而这仅仅只用了一年！

要知道，爱因斯坦的智商约160。未来，人类和AI相比如何存在？

我在我的网站上跟踪AI智商已有一年左右。

OpenAI发布的最新付费模型o3，在测试中拿下了惊人的136分。

智商136在人类中属于顶尖的1%了。

相比之下，11个月前，也就是2024年5月，领先的AI在同一测试中的表现如下：

忽略蓝色曲线的形状差异，那只是设计上的小调整

进步之快，让人难以想象。

不过需要指出，这些结果来自挪威门萨智商测试。这是一个公开测试，答案确实能在网上找到（尽管不太容易）。

为了解决这个问题，去年我与门萨成员合作，从头设计了一个仅限线下的测试，确保AI训练数据无法触及。

然后，我通过邀请 Maximum Truth 的读者同时回答两个测试的题目，校准了两个测试的评分标准，使其难度相当。

以下是AI使用完全不在训练数据集中的题目，测试后的结果

现在，o3的智商得分是116，跻身人类前15%。

作为对比，Maximum Truth读者的中位智商为104。

再看看11个月前，领先AI在同一测试中的成绩——那时候，我们在智商测试上还能稍胜AI一筹：

此测试为全新设计，未出现在任何AI训练数据中

短短11个月，进步之大，简直不可思议。

我把这些发现分享给了Marginal Revolution的Tyler Cowen，他进一步指出：“当然，这些测试低估了知识广度的价值，而o3显然在广度上无人能及。”

他说的完全正确。

我对这些结果的总结是：

OpenAI的o3模型就像一个智商116的人在从零开始推理，但更厉害的是，它仿佛集全人类的知识于一身。

当面对已有答案的问题时，o3的表现更像是智商136的人。

不过，这很大程度上得益于它脑海中存储的全球知识库，包括最聪明人类的研究成果，即便它可能无法从头解决这些问题。

仍有人说：“AI只会鹦鹉学舌，不会真正思考。”

这话不对。

AI的确不会“感受”情绪，但它们绝对能“思考”——它们能通过推导复杂模式，解决前所未见的问题。

我还有更多想分享的内容，比如AI视觉技术的进步如何让AI与物理世界互动，以及AI在政治领域的动态，这些留待日后文章详谈。

就像1995年互联网被普遍忽视一样，AI会带来巨大影响，但如今它仍被远远低估。

原文：https://www.maximumtruth.org/p/skyrocketing-ai-intelligence-chatgpts

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

强化学习曾小健 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。