GPT-4.5：智商测试94，登上LLM竞技场榜首！网友质疑黑幕，实测结果惊人 [特殊字符]

本文链接：https://blog.csdn.net/weixin_32759777/article/details/146020017

大家好，欢迎来到新智元的博客空间！今天我们要聊的是最近AI界的一件大事——GPT-4.5在知名AI排行榜LM Arena中登顶了！这事儿就像是一颗石子投入平静的湖面，激起了层层涟漪。让我们一起看看这个故事是怎么回事吧！

就在几天前，GPT-4.5在基准测试中表现不佳，几乎垫底。但突然间，它像一只变色龙一样，在大模型竞技场上摇身一变成了冠军，总分高达1411，尤其在风格控制、多轮对话方面独占鳌头。这让人不禁怀疑，是不是有什么猫腻？毕竟，之前GPT-4.5可是被批评为“智商一般”，甚至在逻辑推理和数理能力上表现平平。

不过，网友们亲自体验后发现，GPT-4.5的确情商爆表，能够轻易理解人类的深层意图，即使不涉及复杂的推理也能给出令人满意的答案。例如，奥特曼在与GPT-4.5的对话中提出了一个关于奇点的问题，GPT-4.5的回答不仅富有哲理，还十分深刻，这让奥特曼大为赞赏 😮。

不仅如此，许多网友也分享了他们与GPT-4.5互动的有趣经历。比如，有一位用户开了个国际象棋的粗俗玩笑，GPT-4.5不仅接住了梗，还给出了适宜的回答，相比之下，其他模型如Claude Sonnet和Grok 3就没那么灵光了 😂。

但是，尽管GPT-4.5在某些领域表现出色，它并非全能。在编程和数学竞赛中，它与Grok-3并列第一，但在网页开发挑战中，GPT-4.5甚至没有参赛！而且，OpenAI的其他模型在这些比赛中表现并不理想，最好的o3-mini-high仅排第四。

然而，GPT-4.5的成功并非没有代价。其API价格大幅上涨，输入token从每百万2.50美元涨到了75美元，输出token从每百万10美元涨到了150美元。这样的高价让很多用户直呼“肉疼”，尤其是对于小型公司和独立开发者来说，简直是个天文数字 😱。

面对高昂的成本，用户们的态度褒贬不一。虽然有人认为GPT-4.5的情商和创意写作能力有所提升，但也有人觉得它的实际表现并没有达到预期。Karpathy的测试表明，在五分之四的情况下，用户更倾向于GPT-4o的回答。

总之，GPT-4.5的出现无疑给AI界带来了新的思考。虽然它在某些方面取得了显著进步，但高昂的价格和部分领域的不足也让人们对它的未来充满了疑问。不过，正如Sam Altman所说，GPT-4.5是通向GPT-5的重要一步，我们期待着未来的改进和创新。

希望这篇文章能让你对GPT-4.5有一个更加全面的认识。如果你有任何想法或感受，欢迎在下方留言与我们分享！😊

记得关注我们的博客，获取更多有趣的AI资讯！再见啦，朋友们！👋