不追求跑分,GPT-4.5更懂你?
Sam Altman 最近透露,OpenAI 准备推出 GPT-4.5。他表示,这款新模型给他的感觉就像在和一个真正会思考的人交流,有时甚至被 AI 给出的中肯建议所惊讶。
不过,GPT-4.5 是一个庞大且昂贵的模型。由于用户增长迅速,GPU 资源紧张,OpenAI 计划逐步向用户开放。Sam Altman 承认这不是最理想的运营方式,但用户增长和 GPU 短缺确实难以预测。
值得注意的是,GPT-4.5 并非专注于推理的模型,它在基准测试中可能不会创造记录。但它展现了一种不同的智能,Sam Altman 称之为他从未感受过的魔力。
GPT-4.5:性能几何?
GPT-4.5 虽然不是最前沿的模型,但它是 OpenAI 目前最大的语言模型,计算效率比 GPT-4 提升了10倍以上。与其他模型相比,它的表现很有特点:
优势:
- 多语言能力(MMMLU multilingual):85.1%,领先其他模型。
- 多模态任务(MMMU multimodal):74.4%,比 GPT-4o 有明显提升。
- 科学问答(GPQA science):71.4%,比 GPT-4o 显著提升。
不足:
- 数学能力(AIME '24):36.7%,远低于 o3-mini 的 87.3%。
- 编程能力(SWE-Bench):38%,比不上 o3-mini 的 61%。
在 OpenAI 最近开源的软件工程评估基准 SWE-Lancer Diamond 测试中,GPT-4.5(32.6%)表现出色。
"真实性"大幅提升,幻觉率降低
在 SimpleQA 测试中,GPT-4.5 表现最佳:准确率 62.5%,幻觉率 37.1%。相比之下,o3-mini 在此测试中表现最差,准确率仅 15%,幻觉率高达 80.3%。
GPT-4.5 的幻觉率比 GPT-4o 降低了近 24 个百分点。这表明 GPT-4.5 在“真实性”方面有了显著提升,能给出更准确、可靠的回答。这可能是 Sam Altman 所说的“不同类型的智能”的一种体现。
GPT-4.5:一次“全面小提升”
回顾 GPT 家族的进化:
- GPT-1:勉强能写出通顺的文字。
- GPT-2:玩具级别。
- GPT-3:开始变得有趣。
- GPT-3.5:首次达到可商用水平,催生了 ChatGPT。
- GPT-4:整体提升约 20%,但改进较为微妙。
每个 0.5 版本意味着训练算力增加 10 倍。那么 GPT-4.5 呢?
与 GPT-4 相比,GPT-4.5 是一次“全面小提升”,主要在“情商”相关任务上有进步:
- 世界知识更丰富
- 创造力提升
- 类比更准确
- 幽默感增强
- 理解能力更强
但要注意的是,这只是预训练模型,还没有加入推理能力。在数学、编程等需要推理的任务上,它不如 o1。OpenAI 可能会用强化学习进一步提升它的思考能力。
编程能力测试结果
OpenAI 用内部题库测试了 GPT-4.5 的编程能力,题目包括 18 道编程题和 97 道选择题。
GPT-4.5 在编程题上得分 79%,与 deep research 持平,但比 o3-mini 的 92% 略低。
然而,在 SWE-bench Verified 测试中,GPT-4.5 在软件工程能力上的提升并不明显,甚至可以说是令人意外的低:
- GPT-4.5 Pre 得分 35%,Post 得分 38%,比 GPT-4o 仅提升 2-7%。
- 远低于其他模型:o1 达到 48%,o3-mini 达到 61%,deep research 更是达到 68%,差距接近 30%。
- 与 Claude 3.5/3.7 的成绩相比差距更大(Claude 3.7 Sonnet 达到了 70.3%)。
- " Pre/Post " 主要指的是安全对齐前(Pre-mitigation)和安全对齐后(Post-mitigation),也就是安全微调(safety tuning)之前和之后的状态。
此外,GPT-4.5 在 agentic tasks 上的表现并不理想,得分仅为 40%,远低于 deep research 的 76%,甚至比 o1 的 36% 还要差。
MMLU 零样本语言测试结果显示:
- o1 在所有语言上表现最好,英语得分 0.923。
- GPT-4.5 整体略低于 o1,但高于 GPT-4o。
- 主流语言如英语、法语、西班牙语表现较好,小语种如 Yoruba 和 Swahili 得分相对较低。
参数规模与性能提升的思考
看看参数规模:
- GPT-4o:约 200B 参数
- GPT-4:1.76T 参数
- GPT-4.5:超过 2T 参数
然而,性能提升却只有 1-3%。这或许能解释为什么 Claude 3.5 Opus 没有如期发布,业界开始转向关注推理时的优化。
这个结果似乎在暗示:单纯堆参数量的方法可能已经遇到瓶颈。模型规模从 200B 增加到 2T+,性能提升却如此有限,确实值得深思。
“情感升级”:更懂人心的 AI
正如一位网友所说,很多人只盯着基准测试的数据,却忽略了最重要的一点:在日常使用中,AI 如何与人互动,以及它给用户带来什么样的感受。
GPT-4.5 可以说是一次“情感升级”:
- 让 AI 互动更自然
- 更懂得共情
- 像一个有“情商”的助手
它的目标不是在基准测试上拿高分,而是让 AI 变得更贴心,更懂人。
总结
- GPT-4.5 是 GPT-4 的改进版本,采用了 SFT、RLHF 等成熟技术,也引入了新的对齐方法。
- 在技术上,改进了语言处理和推理能力,优化了训练流程,扩充了数据来源。
- 安全性方面与 GPT-4o 相当,经过了偏见和误用风险评估。
- 主要提升是:事实准确性更高,幻觉更少,对话能力增强,能读懂人类微妙的情绪和真实需求。
- 目前以 GPT-4.5-preview 发布,后续改进将基于实际使用反馈。
- 发布计划:逐步向 ChatGPT Pro、Plus、Team、企业版和教育版用户开放。
- ChatGPT 中的功能:支持搜索、文件和图片上传,能处理写作和编程任务,暂不支持语音、视频和屏幕共享。
- 开发者 API:支持函数调用、结构化输出、流式传输、系统消息和视觉能力。
释放创造力,交给 AI!
ChatTools 为您精选了多款智能工具,包含 Gemini, DeepSeek, GPT-4o, GPT 等模型, 提升效率。