目录
一、o3、o4-mini发布
三天前(4月14号)GPT-4.1发布,说实话,我还没怎么用。GPT‑4.1重磅发布,专为开发者设计,百万token上下文,ChatGPT4o的全面升级
今天(4月17号)凌晨,OpenAI又更新了,这次是o系列深度思考模型o3和o4-mini,是OpenAI迄今为止发布的最智能的模型,开始支持Thinking with Images的全新模式(多模态+深度思考),在这点上,OpenAI是落后于其它厂商的,因为一个月前Claude 3.7 sonnent和Grok3就已经支持了Thinking with Images。
o3和o4-mini首次能够将图像直接整合到思维链中,它们不仅能看到图像,还能通过图像进行思考。
二、多模态最强模型
之前ChatGPT4o支持多模态,也就是上传文件、识别图片、联网实时查询、AI绘画等,o系列模型(o1、o3-mini)支持深度思考。
也就是说现在o3和o4-mini = ChatGPT4o + o1、o3-mini,集大家之所长,模之大者。
ChatGPT Plus、Pro和Team用户将在型号选择器中看到o3、o4-mini和o4-mini-high,而不是o1、o3 -mini和o3 -mini-high。
那么,这次的最新模型o3和o4-mini都更新了啥?
- 支持Thinking with Images的全新模式(多模态+深度思考)
- 在编程、数学、科学、推理、视觉感知等领域推动了技术边界。
- 在分析图像、图表和图形等视觉任务上表现尤为出色,引入全新概念“缩放图像”。
- 可以完全访问ChatGPT内的工具,以及通过API中的函数调用访问用户自定义工具。
- 支持联网实时查询
- 变的更高效,可以说是快速版的DeepSearch,想的不但多而且快。
- 提高了指令遵循,回答更加自然、人性化
- OpenAI内部训练了一个推理LLM监视器,在安全性方面,实现了重大升级,添加了新的拒绝基准(例如,指令层次,越狱)。
OpenAI o4-mini是一种更小的模型,针对快速、经济高效的推理进行了优化,说人话就是成本更低、能力更强了,o4-mini支持比o3高得多的使用限制。
三、o3对标o1、o4-mini对标o3-mini
1、表现与推理成本的关系(o3-mini VS o4-mini)
左侧是美国高中数学邀请赛2025测试,o4-mini (high)在右上角表现最佳,准确率达到约0.92,但推理成本最高($0.6)。
右侧是GPQA科学测试性能,o3-mini (high)为 0.85,o4-mini (high) 达到 0.9。意味着 o4-mini 在处理任务时更可靠,尤其是在高性能情况下。
2、表现与推理成本的关系(o1 VS o3)
左侧是美国高中数学邀请赛2025测试,o3系列(黄色线)在所有计算资源等级下都明显优于o1系列,o3 (high):性能达约0.87,成本约$0.5;o1 (high):性能约0.79,但成本高达约$1.0。
右侧是GPQA科学测试性能,o3系列再次全面领先,o3 (high):性能达约0.83,成本约$0.3;o1 (high):性能约0.77,成本约$0.4。
总结一句话,在大多数实际使用中,o3和o4-mini也将分别比o1和o3 -mini更智能、更便宜。
国内直接使用最新o3、o4-mini、GPT4.1、GPT-4.5、满血ChatGPT4o、o1、o3-mini-high、满血DeepSeek R1、马斯克Grok 3
✅️ChatGPT使用地址:www.nezhasoft.cloud
1、纯原版ChatGPT、Claude
✅️官网原生页面
✅️真实Team会员账号
2、技术支持
✔️支持最新o3、o4-mini、GPT-4.1、GPT-4.5、满血ChatGPT-4o(AI绘画不降智)、o1、o3-mini、o3-mini-high、o1 pro
✔️满血DeepSeek R1、马斯克Grok 3
✔️无需魔法、个人独享
3、支持所有GPTs + 自定义插件
支持ChatGPT所有插件,可创建自己的ChatGPT插件,使用朋友分享的自定义插件。
例如最强编程插件Code Copilot、AI绘画插件DALL-E、论文专属Consensus、搜索文献插件Scholar GPT。