OpenAI再掀波澜:o3与o4-mini登场,定义AI新高度
人工智能领域再次迎来激动人心的时刻!OpenAI 近日正式官宣了其最新一代模型——o3 和 o4-mini。官方称其为“迄今为止最聪明、最强大”的模型,它们的发布显著提升了ChatGPT等应用的能力上限,预示着AI智能体的新时代正在加速到来。
这次升级最引人瞩目的“杀手锏”,是模型首次实现了能够主动调用并智能组合ChatGPT内部几乎所有可用工具的能力。无论是网页搜索获取实时信息、运行Python代码进行数据分析、深度理解图像内容,甚至是调用图像生成功能,o3和o4-mini都能根据任务需求,自主判断何时、如何以及组合使用这些工具,以提供更全面、细致且格式恰当的答案,通常在短时间内就能完成复杂问题的处理。
这标志着ChatGPT向更具自主性 (Agentic) 的方向迈出了关键一步,AI不再仅仅是被动回答,而是能更主动、独立地为你完成复杂任务。
解读新模型:o3全能,o4-mini高效
这两款新模型各有侧重,共同构成了OpenAI新的能力矩阵:
-
o3 (全能旗舰): 作为OpenAI当前最强的推理模型,o3在编码、数学、科学推理和视觉感知等多个领域实现了全面突破,刷新了包括Codeforces编程竞赛、SWE-bench软件工程基准(甚至无需特定脚手架)、MMMU多模态大学水平测试等多个权威榜单的最高记录 (SOTA)。它特别擅长处理那些需要多角度分析、答案不明显的复杂查询,其视觉分析能力(如图表、图像解读)尤为突出。根据外部专家的评估,在处理困难的真实世界任务时,o3相比前代o1犯严重错误的几率降低了约20%,尤其在编程、商业咨询和创意构思方面进步显著。早期测试者也称赞其作为“思考伙伴”时展现出的分析严谨性,以及在生物、数学、工程等领域生成和批判性评估新假设的能力。
-
o4-mini (高效性价比之选): 这是一款更小巧、为速度和效率进行优化的模型。尽管体量更小,但其性能表现远超预期,特别是在数学、编码和视觉任务上。它在AIME数学竞赛基准测试中取得了优异成绩。专家评估也显示,在非STEM任务和数据科学等领域,o4-mini同样优于之前的o3-mini。由于其高效率,o4-mini在实际应用中通常能支持更高的调用频率,非常适合需要大量推理的高并发场景。
共同的进步:
除了各自的亮点,这两款模型在多个方面都展现了共同的提升:
- 更强的指令遵循能力: 能更准确地理解和执行用户的复杂指令。
- 更有用、更可验证的回答: 部分得益于集成的网页搜索能力,回答内容更加充实可靠。
- 更自然的对话体验: 能够更好地利用对话历史和记忆,使回复更具个性化和上下文关联性。
数据为证:实力全面碾压
一系列基准测试数据直观地展示了o3和o4-mini的强大实力(以下数据均在较高“推理努力”设置下评估,类似于ChatGPT中的’o4-mini-high’版本):
- AIME 竞赛数学 (无工具): o4-mini (92.7%) > o3 (91.6%)
- Codeforces 竞赛编程 (带终端): o4-mini (ELO 2719) ≈ o3 (ELO 2706)
- GPQA Diamond (博士级科学问题, 无工具): o3 (83.3%) > o4-mini (81.4%)
- Humanity’s Last Exam (跨学科专家级问题): o3 (带工具 24.9%) 显著优于 o4-mini (带工具 17.7%),工具使用能力差距明显。
- MMMU (大学级视觉解题): o3 (82.9%) > o4-mini (81.6%)
- MathVista (视觉数学推理): o3 (86.8%) > o4-mini (84.3%)
- SWE-Bench Verified (软件工程): o3 (69.1%) ≈ o4-mini (68.1%)
- BrowseComp (Agentic 网页浏览): o3 (带工具 49.7%) >> o4-mini (带工具 28.3%),再次体现o3在复杂工具协同上的优势。
这些数据清晰表明,新模型在逻辑推理、编程、数学、视觉理解以及需要工具辅助的复杂任务上,都取得了显著的进步。
技术基石:持续投入强化学习 (RL)
模型能力飞跃的背后,是OpenAI在强化学习 (RL) 上的持续深耕。他们发现,大规模RL训练与GPT预训练类似,遵循着“投入更多计算资源 = 性能更优”的规律。通过在RL上投入更多的训练计算和推理时间,模型的性能得以持续提升。
更关键的是,工具使用能力也是通过RL训练的。模型不仅学习了如何使用单个工具,更重要的是学会了判断何时需要使用工具、以及如何组合多种工具来解决问题。这使得它们在开放式场景下,尤其是在涉及视觉推理和需要多步骤工作流的任务中,表现更加强大和灵活。
核心升级:“带着图像思考”
本次更新的另一大亮点是模型首次能够将图像直接整合进它们的思考链 (Chain-of-Thought)。它们不再仅仅是“看”图,而是真正实现了“带着图像一起思考”。
这意味着什么?
- 深度解读: 用户可以输入白板照片、教科书图表、手绘草图等各种图像,即使图片模糊、颠倒或质量不佳,模型也能尝试解读。
- 动态处理: 模型甚至能在推理过程中对图像进行动态处理(如旋转、缩放)以辅助理解。
- 解决棘手问题: 这种能力使得模型能更好地解决复杂的视觉相关问题,例如:
- 分析图表/笔记: 直接读取手写笔记(即使倒置)、解释复杂的科学图表(如物理费曼图)。
- 识别现实世界信息: 从模糊照片中读取路牌文字、结合站牌照片与网络搜索查询公交信息。
- 空间推理: 分析迷宫图片并找出路径。
- 图像细节推断: 根据照片细节(如MIT毕业典礼照片)结合搜索推断活动日期和地点。
- 场景识别: 通过图像特征识别电影取景地。
- 视觉谜题: 破解需要结合视觉元素的逻辑谜题。
未来展望:融合与自主
OpenAI的战略方向日益清晰:融合O系列模型的专业推理能力与GPT系列的自然对话、工具使用能力。未来的AI模型将不仅是能言善辩的对话伙伴,更是具备高级问题解决能力、能够主动且灵活使用各种工具的自主智能体。
总而言之,o3和o4-mini的发布是OpenAI在提升模型智能和推动AI Agent能力方面的一次重要飞跃。赋予AI灵活组合使用多种工具和“带着图像思考”的能力,让AI向着更强大、更自主、更实用的未来形态迈进了一大步,值得我们持续关注和探索其带来的无限可能。
一站式体验前沿 AI!ChatTools 集成 GPT-4o (支持图片编辑)、Claude 3.7、DeepSeek 等。更可免费无限畅玩 Midjourney 绘画! 马上试试:https://chat.chattools.cn