个人简介
作者简介:全栈研发,具备端到端系统落地能力,专注大模型的压缩部署、多模态理解与 Agent 架构设计。 热爱“结构”与“秩序”,相信复杂系统背后总有简洁可控的可能。
我叫观熵。不是在控熵,就是在观测熵的流动
个人主页:观熵
个人邮箱:privatexxxx@163.com
座右铭:愿科技之光,不止照亮智能,也照亮人心!
专栏导航
观熵系列专栏导航:
AI前沿探索:从大模型进化、多模态交互、AIGC内容生成,到AI在行业中的落地应用,我们将深入剖析最前沿的AI技术,分享实用的开发经验,并探讨AI未来的发展趋势
AI开源框架实战:面向 AI 工程师的大模型框架实战指南,覆盖训练、推理、部署与评估的全链路最佳实践
计算机视觉:聚焦计算机视觉前沿技术,涵盖图像识别、目标检测、自动驾驶、医疗影像等领域的最新进展和应用案例
国产大模型部署实战:持续更新的国产开源大模型部署实战教程,覆盖从 模型选型 → 环境配置 → 本地推理 → API封装 → 高性能部署 → 多模型管理 的完整全流程
TensorFlow 全栈实战:从建模到部署:覆盖模型构建、训练优化、跨平台部署与工程交付,帮助开发者掌握从原型到上线的完整 AI 开发流程
PyTorch 全栈实战专栏: PyTorch 框架的全栈实战应用,涵盖从模型训练、优化、部署到维护的完整流程
深入理解 TensorRT:深入解析 TensorRT 的核心机制与部署实践,助力构建高性能 AI 推理系统
Megatron-LM 实战笔记:聚焦于 Megatron-LM 框架的实战应用,涵盖从预训练、微调到部署的全流程
AI Agent:系统学习并亲手构建一个完整的 AI Agent 系统,从基础理论、算法实战、框架应用,到私有部署、多端集成
DeepSeek 实战与解析:聚焦 DeepSeek 系列模型原理解析与实战应用,涵盖部署、推理、微调与多场景集成,助你高效上手国产大模型
端侧大模型:聚焦大模型在移动设备上的部署与优化,探索端侧智能的实现路径
行业大模型 · 数据全流程指南:大模型预训练数据的设计、采集、清洗与合规治理,聚焦行业场景,从需求定义到数据闭环,帮助您构建专属的智能数据基座
机器人研发全栈进阶指南:从ROS到AI智能控制:机器人系统架构、感知建图、路径规划、控制系统、AI智能决策、系统集成等核心能力模块
人工智能下的网络安全:通过实战案例和系统化方法,帮助开发者和安全工程师识别风险、构建防御机制,确保 AI 系统的稳定与安全
智能 DevOps 工厂:AI 驱动的持续交付实践:构建以 AI 为核心的智能 DevOps 平台,涵盖从 CI/CD 流水线、AIOps、MLOps 到 DevSecOps 的全流程实践。
C++学习笔记?:聚焦于现代 C++ 编程的核心概念与实践,涵盖 STL 源码剖析、内存管理、模板元编程等关键技术
AI × Quant 系统化落地实战:从数据、策略到实盘,打造全栈智能量化交易系统
大模型运营专家的Prompt修炼之路:本专栏聚焦开发 / 测试人员的实际转型路径,基于 OpenAI、DeepSeek、抖音等真实资料,拆解 从入门到专业落地的关键主题,涵盖 Prompt 编写范式、结构输出控制、模型行为评估、系统接入与 DevOps 管理。每一篇都不讲概念空话,只做实战经验沉淀,让你一步步成为真正的模型运营专家。
《GPT-4-mini 与 o3 满血版实战首测:视觉推理、工具调用与多模态协同的范式突变》
摘要
北京时间凌晨1点,OpenAI 悄然上线了全新模型 GPT-4-mini(即 o4-mini)与 GPT-4-o(即 o3 满血版),并全面替换原有 o1/o3-mini 系列。新模型不仅价格更低,性能却几乎全线飙升,尤其是 GPT-4-o 首次支持工具链接入,并在视觉推理任务中实现质变。
本文将以真实案例切入,从模型推理逻辑、视觉任务细节拆解、插件工具协同、结构化输出等维度展开系统测试,全面还原开发者视角下的新模型能力边界,并结合 AIME、SWE-Bench、MMMU 等真实基准测试数据,揭示背后的架构进化与落地潜力。
目录
一、模型变更一览:从 o1 到 o3 的替换路线图
- 模型命名与选择器调整
- Plus / Pro / Team 用户模型切换机制
- o1 系列退役,GPT-4-o / mini 全面接管
二、核心性能进化简述:小模型大能量
- AIME、GPQA 等任务中的逻辑推理能力
- MathVista、Humanity’s Last Exam 表现分析
- 多项 benchmark 中的工具调用增益表现
三、视觉推理首次升级:GPT-4-o 与 mini 系列的多模态能力突破
- MMMU / MathVista:视觉数学任务表现
- CharXiv-Reasoning:科研图表推理能力
- 多模态 CoT 能力与传统视觉模型对比
四、工具链能力强化:Python × 搜索 × 函数调用的 Agent 化执行
- Scale MultiChallenge:多轮任务记忆保持能力
- Tau-bench:结构化函数调用链构建能力
- BrowseComp:浏览器 Agent 执行路径分析
- 插件调用机制与系统级协同设计思路
五、开发者实战角度的几项新变化
- 图像输入格式增强与多图对比支持
- PDF → 图像路径解析与视觉对话上下文支持
- 自动加框、视觉高亮与输出结构化控制
- 插件选择机制与 tool_choice=“auto” 的实战表现
- 200K 长上下文窗口带来的工程空间拓展
六、GPT-4-mini 实测亮点:小模型也有大智慧?
- 成本压缩下的性能表现对比
- 响应速度与服务稳定性评估
- 多模态能力完整继承与工具链支持
- 建议使用场景与部署策略
七、未来趋势与开发建议:以 GPT-4-o × mini 为主的多模态协同实践路径
- 多模态任务将成为默认能力入口
- 工具链能力需系统化集成而非 prompt 控制
- GPT-4-o / mini 的组合部署建议
- 接口使用中的实际限制与预防
- 三类可立即落地的推荐实用场景
一、模型变更一览:从 o1 到 o3 的替换路线图
如果你今天打开 ChatGPT 的模型选择器,会发现熟悉的“o1”、“o3-mini-high”已经悄然被移除,取而代之的是 GPT-4-o、GPT-4-mini、GPT-4-mini-high 三个新面孔。虽然命名上略显跳跃,但本质上,这是 OpenAI 对整个 GPT-4 系列的大规模重构。
官方这次没有留给用户过多解释的空间,直接动刀配置表:
模型 | 推理能力 | 速度 | 定价(输入 / 输出) | 支持类型 | 上下文窗口 | 最大输出Token | 数据截止 |
---|---|---|---|---|---|---|---|
o4 |