工具、图像、推理链,
o3
给“AI 能力上限”画了个新坐标轴。
OpenAI 又搞事了。
4 月 16 日,一则消息打破了这夜间的宁静。
“Livestream in o3 hours”。
用脚也能想到,这是满血版 o3
要来了。
01|OpenAI o3 / o4-mini 发布观察
这不是下一代 GPT,但可能是另一个方向的“能力顶点”。
4 月 16 日,OpenAI 连发两款“o
系列”推理模型:旗舰版 o3
和轻量版 o4-mini
。
一个关键词总结它们:不是更会聊天,而是更会思考。
这不是 GPT-5
,但可能是为 GPT-5
铺的路。
这不是下一代 GPT,但它干掉了上一代 GPT 的不少长处。
从结构上看,OpenAI 在尝试把 AI 拆成“更专精”的模块,而不是一股脑把所有能力都放进一个大模型里。
o3
/o4-mini
,就是这个拆分逻辑下的推理模块:它们不主打情感陪伴,也不玩音视频输出,主打一个“我能解出你解不出的问题”。
02|这两个模型厉害吗?能干什么?
用 OpenAI 官方的话说:o3
和 o4-mini
是我们迄今为止“智商”最高、功能最强的模型。
答案如下。
-
o3
是 OpenAI 目前最强的逻辑/推理模型,数学准确率 96.7%,Codeforces 编程 Elo 2727,顶着“金牌 AI”称号出场; -
o4-mini
是它的“便携版”,推理速度更快、成本更低,主打实时性和性价比; -
二者都支持“图像思考”+“工具调用”,不是你说一句我答一句那种,而是能自动判断要不要去查网、写段 Python 再回来回答你。
一句话总结:
o3
更像 OpenAI 的实验室里跑出来的科研级 AI;
o4-mini
则是“能部署到你手机里”的版本。
03|这一轮 o 系列进化,关键在哪?
多模态,不止是看图,更是“用图来想”
o3
/o4-mini
是 OpenAI 首批具备“图像思考”能力的模型,不只是 OCR、图像问答那种玩法,而是真能读图、联想、结合外部工具得出结论。
比如一张科研海报,它能先提取图表、数据、变量关系,再查文献,最后生成分析。
这种玩法,已经不是传统意义的视觉模型,而是更偏 AI Agent 的思维模型。
工具调用进化,真正开始“自己动手查资料+执行代码”
比起 GPT-4o
的“用户点搜索才搜索”,o3
是“模型判断有必要就自动去搜”。
它能主动触发 Python 工具,调取图片分析、甚至 canvas 工具,再把结果合成你要的答案。
这就不是“增强记忆”的大语言模型,而是一个具有行动链路的智能体(agent)。
Simulated Reasoning:模拟推理 vs 胡乱联想
OpenAI 提出的 Simulated Reasoning 技术,号称能让模型在输出答案前先经历一个“私人思维链”(private chain of thought),先不说真有多私人,但从 AIME 96.7%、Codeforces 2727 的成绩来看,它确实比 GPT-4o 少犯很多错。
换句话说,它是先思考再说话,不是边说边瞎蒙。
04|到底该选谁?你该用哪一个?
o3
/o4-mini
这一对模型的定位非常清晰:
模型 | 用处 | 适合谁 |
---|---|---|
o3 | 高精度推理、深度工具调用、科研/复杂任务 | 研究员、高级程序员、分析师 |
o4-mini | 快速反馈、较强能力、低成本部署 | 移动端应用、教育、数据分析、日常使用 |
实际上,这里还有个隐形的信号:GPT-5
很可能会整合 o3
的推理骨架。
所以现在的 o3
/o4-mini
,某种意义上是 GPT-5
的“提前体验”。
05|怎么用?现在能不能玩?
-
ChatGPT Plus、Pro、Team 用户已开放,替换了原先的
o1
/o3-mini
/o3-mini-high
; -
Enterprise 和 Edu 用户预计一周后获得;
-
免费用户可在输入前点选“Reason”按钮,体验
o4-mini
的能力; -
API 访问方式已上线,支持按推理强度调节计算开销(
o
系列首创)。
至于价格,比起 o1-pro
和 GPT-4.5
的“天价”,只能说这次的 o3
/o4-mini
定价还算是合理,尤其是 o4-mini
,可以当高性价比版本用。
-
o3
:输入40 每百万令牌;
-
o4-mini
:输入4.4 每百万令牌;
-
GPT-4.1
:输入8 每百万令牌。
06|GPT 4.1 vs o3
本周是 OpenAI 官宣的发布周。
周一的时候 OpenAI 就发布了 GPT 系列新模型 GPT-4.1
。
那么,GPT-4.1
和 o3
/o4-mini
有什么区别?
一句话总结:GPT-4.1
是“语言宇宙的万能钥匙”,但 o3
是“科研工程的专职解题器”。
你会发现,它不擅长闲聊、风格没那么油滑,但你一旦把它丢进代码、数学、科学的深水区,它能稳住。
o
系列,就是 OpenAI 给自己的一个侧翼。
GPT-4.1
系列搞交流,o
系列搞理解。
再往后走,也许它们会合体。
但现在,这对 o3
+ o4-mini
的组合,刚好补齐了 GPT 的硬核脑力短板。
结语
o3
的正式命名,是为了避免商标和英国电信公司 O2
冲突。
Sam Altman 也在 X 上打趣:“我们真不擅长起名字”。
o4-mini
的出现,说明 OpenAI 不只追求强,而且追求“多快好省”。
一周发布 5 个模型,是 OpenAI 最后的“倔强”。
最卷的 AI,最卷的 2025。
我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。
相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。
欢迎关注“AI信息Gap”,用AI为你的未来加速。