GPT-4.5来了！OpenAI新模型，是“情商”飞跃还是参数堆砌？

本文链接：https://blog.csdn.net/m0_66917422/article/details/145919203

OpenAI 准备推出 GPT-4.5

Sam Altman 最近透露，OpenAI 准备推出 GPT-4.5。他表示，这款新模型给他的感觉就像在和一个真正会思考的人交流，有时甚至被 AI 给出的中肯建议所惊讶。

不过，GPT-4.5 是一个庞大且昂贵的模型。由于用户增长迅速，GPU 资源紧张，OpenAI 计划逐步向用户开放。Sam Altman 承认这不是最理想的运营方式，但用户增长和 GPU 短缺确实难以预测。

值得注意的是，GPT-4.5 并非专注于推理的模型，它在基准测试中可能不会创造记录。但它展现了一种不同的智能，Sam Altman 称之为他从未感受过的魔力。
GPT-4.5：性能几何？

GPT-4.5 虽然不是最前沿的模型，但它是 OpenAI 目前最大的语言模型，计算效率比 GPT-4 提升了10倍以上。与其他模型相比，它的表现很有特点：

优势：

不足：

在 OpenAI 最近开源的软件工程评估基准 SWE-Lancer Diamond 测试中，GPT-4.5（32.6%）表现出色。

不追求跑分，GPT-4.5更懂你？
在 SimpleQA 测试中，GPT-4.5 表现最佳：准确率 62.5%，幻觉率 37.1%。相比之下，o3-mini 在此测试中表现最差，准确率仅 15%，幻觉率高达 80.3%。

GPT-4.5 的幻觉率比 GPT-4o 降低了近 24 个百分点。这表明 GPT-4.5 在“真实性”方面有了显著提升，能给出更准确、可靠的回答。这可能是 Sam Altman 所说的“不同类型的智能”的一种体现。

回顾 GPT 家族的进化：

每个 0.5 版本意味着训练算力增加 10 倍。那么 GPT-4.5 呢？

与 GPT-4 相比，GPT-4.5 是一次“全面小提升”，主要在“情商”相关任务上有进步：

但要注意的是，这只是预训练模型，还没有加入推理能力。在数学、编程等需要推理的任务上，它不如 o1。OpenAI 可能会用强化学习进一步提升它的思考能力。

GPT-4.5：性能几何？
OpenAI 用内部题库测试了 GPT-4.5 的编程能力，题目包括 18 道编程题和 97 道选择题。

GPT-4.5 在编程题上得分 79%，与 deep research 持平，但比 o3-mini 的 92% 略低。

然而，在 SWE-bench Verified 测试中，GPT-4.5 在软件工程能力上的提升并不明显，甚至可以说是令人意外的低：

GPT-4.5 Pre 得分 35%，Post 得分 38%，比 GPT-4o 仅提升 2-7%。
远低于其他模型：o1 达到 48%，o3-mini 达到 61%，deep research 更是达到 68%，差距接近 30%。
与 Claude 3.5/3.7 的成绩相比差距更大（Claude 3.7 Sonnet 达到了 70.3%）。
" Pre/Post " 主要指的是安全对齐前（Pre-mitigation）和安全对齐后（Post-mitigation），也就是安全微调（safety tuning）之前和之后的状态。

此外，GPT-4.5 在 agentic tasks 上的表现并不理想，得分仅为 40%，远低于 deep research 的 76%，甚至比 o1 的 36% 还要差。

MMLU 零样本语言测试结果显示：