GPT-4.5来了!OpenAI新模型,是“情商”飞跃还是参数堆砌?

不追求跑分,GPT-4.5更懂你?

OpenAI 准备推出 GPT-4.5

Sam Altman 最近透露,OpenAI 准备推出 GPT-4.5。他表示,这款新模型给他的感觉就像在和一个真正会思考的人交流,有时甚至被 AI 给出的中肯建议所惊讶。

不过,GPT-4.5 是一个庞大且昂贵的模型。由于用户增长迅速,GPU 资源紧张,OpenAI 计划逐步向用户开放。Sam Altman 承认这不是最理想的运营方式,但用户增长和 GPU 短缺确实难以预测。

值得注意的是,GPT-4.5 并非专注于推理的模型,它在基准测试中可能不会创造记录。但它展现了一种不同的智能,Sam Altman 称之为他从未感受过的魔力。
 GPT-4.5:性能几何?

GPT-4.5:性能几何?

GPT-4.5 虽然不是最前沿的模型,但它是 OpenAI 目前最大的语言模型,计算效率比 GPT-4 提升了10倍以上。与其他模型相比,它的表现很有特点:

优势:

  • 多语言能力(MMMLU multilingual):85.1%,领先其他模型。
  • 多模态任务(MMMU multimodal):74.4%,比 GPT-4o 有明显提升。
  • 科学问答(GPQA science):71.4%,比 GPT-4o 显著提升。

不足:

  • 数学能力(AIME '24):36.7%,远低于 o3-mini 的 87.3%。
  • 编程能力(SWE-Bench):38%,比不上 o3-mini 的 61%。

在 OpenAI 最近开源的软件工程评估基准 SWE-Lancer Diamond 测试中,GPT-4.5(32.6%)表现出色。

"真实性"大幅提升,幻觉率降低

不追求跑分,GPT-4.5更懂你?
在 SimpleQA 测试中,GPT-4.5 表现最佳:准确率 62.5%,幻觉率 37.1%。相比之下,o3-mini 在此测试中表现最差,准确率仅 15%,幻觉率高达 80.3%。

GPT-4.5 的幻觉率比 GPT-4o 降低了近 24 个百分点。这表明 GPT-4.5 在“真实性”方面有了显著提升,能给出更准确、可靠的回答。这可能是 Sam Altman 所说的“不同类型的智能”的一种体现。

GPT-4.5:一次“全面小提升”

回顾 GPT 家族的进化:

  • GPT-1:勉强能写出通顺的文字。
  • GPT-2:玩具级别。
  • GPT-3:开始变得有趣。
  • GPT-3.5:首次达到可商用水平,催生了 ChatGPT。
  • GPT-4:整体提升约 20%,但改进较为微妙。

每个 0.5 版本意味着训练算力增加 10 倍。那么 GPT-4.5 呢?

与 GPT-4 相比,GPT-4.5 是一次“全面小提升”,主要在“情商”相关任务上有进步:

  • 世界知识更丰富
  • 创造力提升
  • 类比更准确
  • 幽默感增强
  • 理解能力更强

但要注意的是,这只是预训练模型,还没有加入推理能力。在数学、编程等需要推理的任务上,它不如 o1。OpenAI 可能会用强化学习进一步提升它的思考能力。

编程能力测试结果

GPT-4.5:性能几何?
OpenAI 用内部题库测试了 GPT-4.5 的编程能力,题目包括 18 道编程题和 97 道选择题。

GPT-4.5 在编程题上得分 79%,与 deep research 持平,但比 o3-mini 的 92% 略低。

然而,在 SWE-bench Verified 测试中,GPT-4.5 在软件工程能力上的提升并不明显,甚至可以说是令人意外的低:

  • GPT-4.5 Pre 得分 35%,Post 得分 38%,比 GPT-4o 仅提升 2-7%。
  • 远低于其他模型:o1 达到 48%,o3-mini 达到 61%,deep research 更是达到 68%,差距接近 30%。
  • 与 Claude 3.5/3.7 的成绩相比差距更大(Claude 3.7 Sonnet 达到了 70.3%)。
  • " Pre/Post " 主要指的是安全对齐前(Pre-mitigation)和安全对齐后(Post-mitigation),也就是安全微调(safety tuning)之前和之后的状态。

此外,GPT-4.5 在 agentic tasks 上的表现并不理想,得分仅为 40%,远低于 deep research 的 76%,甚至比 o1 的 36% 还要差。

MMLU 零样本语言测试结果显示:

  • o1 在所有语言上表现最好,英语得分 0.923。
  • GPT-4.5 整体略低于 o1,但高于 GPT-4o。
  • 主流语言如英语、法语、西班牙语表现较好,小语种如 Yoruba 和 Swahili 得分相对较低。

参数规模与性能提升的思考

看看参数规模:

  • GPT-4o:约 200B 参数
  • GPT-4:1.76T 参数
  • GPT-4.5:超过 2T 参数

然而,性能提升却只有 1-3%。这或许能解释为什么 Claude 3.5 Opus 没有如期发布,业界开始转向关注推理时的优化。

这个结果似乎在暗示:单纯堆参数量的方法可能已经遇到瓶颈。模型规模从 200B 增加到 2T+,性能提升却如此有限,确实值得深思。

“情感升级”:更懂人心的 AI

正如一位网友所说,很多人只盯着基准测试的数据,却忽略了最重要的一点:在日常使用中,AI 如何与人互动,以及它给用户带来什么样的感受。

GPT-4.5 可以说是一次“情感升级”:

  • 让 AI 互动更自然
  • 更懂得共情
  • 像一个有“情商”的助手

它的目标不是在基准测试上拿高分,而是让 AI 变得更贴心,更懂人。

总结

  • GPT-4.5 是 GPT-4 的改进版本,采用了 SFT、RLHF 等成熟技术,也引入了新的对齐方法。
  • 在技术上,改进了语言处理和推理能力,优化了训练流程,扩充了数据来源。
  • 安全性方面与 GPT-4o 相当,经过了偏见和误用风险评估。
  • 主要提升是:事实准确性更高,幻觉更少,对话能力增强,能读懂人类微妙的情绪和真实需求。
  • 目前以 GPT-4.5-preview 发布,后续改进将基于实际使用反馈。
  • 发布计划:逐步向 ChatGPT Pro、Plus、Team、企业版和教育版用户开放。
  • ChatGPT 中的功能:支持搜索、文件和图片上传,能处理写作和编程任务,暂不支持语音、视频和屏幕共享。
  • 开发者 API:支持函数调用、结构化输出、流式传输、系统消息和视觉能力。

释放创造力,交给 AI!
ChatTools 为您精选了多款智能工具,包含 Gemini, DeepSeek, GPT-4o, GPT 等模型, 提升效率。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值