OpenAI直播发布第12天：好消息，o3来了；坏消息，还不能用！

最新推荐文章于 2025-05-31 16:51:52 发布

AI信息Gap

最新推荐文章于 2025-05-31 16:51:52 发布

阅读量1.5k

点赞数 30

文章标签：人工智能机器学习算法 OpenAI gpt chatgpt

本文链接：https://blog.csdn.net/weixin_40774379/article/details/144623929

版权

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“外挂”，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效率提升，AI行业洞察。关注我，AI之路不迷路，2024我们一起变强。

今天是OpenAI连续12天直播发布会的第12天。

本系列将在每个工作日持续更新，为小伙伴们带来第一手的更新解读，敬请关注。

一图看懂今天的发布

接下来正文开始。

Day 12 发布内容

今天是OpenAI直播的第12天，也是最后一天。

不出意外的还是出了意外，OpenAI今天的发布依旧是在“画饼”，但是个“好饼”。

OpenAI今天发布了2个新模型：o3和o3-mini。从这两个名字也能看出来，这是o1系列的后继模型，也就是o1的升级版本，本质上是一个推理模型。

为什么说这是个“好饼”？

因为o3太强了，性能怪兽，拥有超过人类的智商（推理能力）。来看一下o3的战绩。在SWE-bench Verified基准测试上，o3准确率高达71.7%，比o1提升超过20%。在Codeforces竞赛编程平台上，o3的ELO评分接近2727，超过了绝大多数人类程序员，包括OpenAI自己的首席科学家Yakov，仅次于少数顶尖选手（ELO3000以上）。在美国数学奥林匹克选拔考试（AMIE） 中，o3取得了96.7%的惊人准确率。在GPQA Diamond这个博士级难度的科学问答基准测试中，o3获得了87.7%的准确率，远超o1（78%），甚至超过了人类博士专家在其专业领域的平均水平（约70%）。

为什么说这是在“画饼”？

因为现在不能用，属于是发布了，但又没完全发布。目前的o3还处于安全测试阶段。据OpenAI CEO Sam Altman的表示，o3-mini计划于2025年1月底正式推出，o3则在更后面。目前，OpenAI已经开放了安全测试的申请通道，从今天起到2025年1月10日，研究人员和开发者可以申请参与早期测试，以帮助改进模型的安全性和可靠性。

题外话。

其实昨晚Sam Altman就在为o3的发布造势了，先是发布了一条内容是“ho ho ho”的帖子，几十分钟后又改为了“oh oh oh”（3个o），表示这是明天发布内容的线索。

跳过 o2

这次直播发布活动的第一天才发布的满血版o1，今天最后一天直接跳到o3了？

今天的直播中提到，为了尊重合作伙伴“Telica”，避免名称冲突，OpenAI放弃了“o2”的命名。所以，跨了一步直接到o3。

o3 基准测试表现

准确率达到了71.7%的SWE-bench Verified，主要测试真实软件任务，作为对比，o1仅有48.9%。

Codeforces ELO，竞赛编程测试，o3得分2727，作为对比，o1是1891。本场直播的主持人Mark得分2500分左右。

在美国数学奥赛（AIME 2024）的测试中，o3取得了高达96.7%的准确率。博士级别的GPQA Diamond测试，则取得了87.7%的准确率。

接下来这个更是重磅。前沿数学基准测试（Frontier Math Benchmark）：由Epic AI开发，被认为是当前最困难的数学基准测试，包含未发表且非常难的数学问题。目前所有模型的准确率都低于2%，而o3在高测试时间（高算力）设置下，准确率超过了25%。

o3 mini 基准测试表现

所谓的o3-mini可以参考o1-mini，就是小版本的o3，主打性能和成本的平衡，俗称：又便宜又好用。

o3-mini支持低、中、高三种不同的推理计算选项，可以根据不同的使用场景，灵活调整模型的思考时间。可以看到，在Codeforces ELO测试中，中等思考时间下的o3-mini表现就已经超过了满血版本的o1。

在AMIE 2024数据集上，o3-mini (low)的表现与o1-mini相当，而和前面的测试一样，o3-mini (medium)的表现已经开始优于满血版o1。

响应速度（延迟）就更不用说，o3-mini的延迟显著低于o1-mini，其中o3-mini (low)的延迟甚至可以与GPT-4o媲美，低于1秒，实现了近乎实时的响应。

o3 安全测试申请

目前的o3还处于早期安全测试阶段，并且该测试面向公众开放申请。需要注意的是，申请截止日期是2025年1月10日。

申请地址：https://openai.com/index/early-access-for-safety-testing/

Day 12 完整版直播视频

OpenAI 12天直播发布回顾

OpenAI于12月5日开启“12天发布季”，本系列将在每个工作日持续更新，为小伙伴们带来第一手的更新解读，敬请关注。

日期	发布关键词	详细解读文章
🌟 Day 1	`满血版 o1` · `ChatGPT Pro 新套餐`	📖 满血版o1，200美元/月的ChatGPT Pro新套餐！
✨ Day 2	`强化学习微调 (RFT)`	📖 o1+强化学习微调=定制化推理模型！
🎥 Day 3	`文生视频模型 Sora`	📖 Sora文生视频模型真的来了？！
🖌️ Day 4	`ChatGPT Canvas`	📖 ChatGPT Canvas全面升级，免费开放！
🍎 Day 5	`Apple Intelligence`	📖 ChatGPT+Siri=新Apple Intelligence！
🎄 Day 6	`视频聊天` · `屏幕共享` · `圣诞模式`	📖 ChatGPT视频聊天、屏幕共享和圣诞语音包！
🚀 Day 7	`ChatGPT Projects`	📖 ChatGPT推出Projects，本周最强功能！
🔍 Day 8	`ChatGPT Search`	📖 ChatGPT Search全面升级，免费开放！
💡 Day 9	`o1 API` · `Realtime API` · `偏好微调`	📖 o1 API正式发布，实时API升级，偏好微调PFT！
📞 Day 10	`电话直拨ChatGPT` · `WhatsApp支持`	📖 电话直拨ChatGPT，最鸡肋的功能，来了！
💻 Day 11	`Work with Apps`	📖 ChatGPT桌面客户端升级，就这？