OpenAI直播发布第12天:好消息,o3来了;坏消息,还不能用!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

今天是OpenAI连续12天直播发布会的第12天

本系列将在每个工作日持续更新,为小伙伴们带来第一手的更新解读,敬请关注。

一图看懂今天的发布

接下来正文开始。

Day 12 发布内容

今天是OpenAI直播的第12天,也是最后一天。

不出意外的还是出了意外,OpenAI今天的发布依旧是在“画饼”,但是个“好饼”。

OpenAI今天发布了2个新模型:o3o3-mini。从这两个名字也能看出来,这是o1系列的后继模型,也就是o1的升级版本,本质上是一个推理模型

为什么说这是个“好饼”?

因为o3太强了,性能怪兽,拥有超过人类的智商(推理能力)。来看一下o3的战绩。在SWE-bench Verified基准测试上,o3准确率高达71.7%,比o1提升超过20%。在Codeforces竞赛编程平台上,o3ELO评分接近2727,超过了绝大多数人类程序员,包括OpenAI自己的首席科学家Yakov,仅次于少数顶尖选手(ELO3000以上)。在美国数学奥林匹克选拔考试(AMIE) 中,o3取得了96.7%的惊人准确率。在GPQA Diamond这个博士级难度的科学问答基准测试中,o3获得了87.7%的准确率,远超o1(78%),甚至超过了人类博士专家在其专业领域的平均水平(约70%)。

为什么说这是在“画饼”?

因为现在不能用,属于是发布了,但又没完全发布。目前的o3还处于安全测试阶段。据OpenAI CEO Sam Altman的表示,o3-mini计划于2025年1月底正式推出,o3则在更后面。目前,OpenAI已经开放了安全测试的申请通道,从今天起到2025年1月10日,研究人员和开发者可以申请参与早期测试,以帮助改进模型的安全性和可靠性。

题外话。

其实昨晚Sam Altman就在为o3的发布造势了,先是发布了一条内容是“ho ho ho”的帖子,几十分钟后又改为了“oh oh oh”(3个o),表示这是明天发布内容的线索。

跳过 o2

这次直播发布活动的第一天才发布的满血版o1,今天最后一天直接跳到o3了?

今天的直播中提到,为了尊重合作伙伴“Telica”,避免名称冲突,OpenAI放弃了“o2”的命名。所以,跨了一步直接到o3

o3 基准测试表现

准确率达到了71.7%的SWE-bench Verified,主要测试真实软件任务,作为对比,o1仅有48.9%。

Codeforces ELO,竞赛编程测试,o3得分2727,作为对比,o1是1891。本场直播的主持人Mark得分2500分左右。

在美国数学奥赛(AIME 2024)的测试中,o3取得了高达96.7%的准确率。博士级别的GPQA Diamond测试,则取得了87.7%的准确率。

接下来这个更是重磅。前沿数学基准测试(Frontier Math Benchmark):由Epic AI开发,被认为是当前最困难的数学基准测试,包含未发表且非常难的数学问题。目前所有模型的准确率都低于2%,而o3在高测试时间(高算力)设置下,准确率超过了25%。

o3 mini 基准测试表现

所谓的o3-mini可以参考o1-mini,就是小版本的o3,主打性能和成本的平衡,俗称:又便宜又好用。

o3-mini支持低、中、高三种不同的推理计算选项,可以根据不同的使用场景,灵活调整模型的思考时间。可以看到,在Codeforces ELO测试中,中等思考时间下的o3-mini表现就已经超过了满血版本的o1

在AMIE 2024数据集上,o3-mini (low)的表现与o1-mini相当,而和前面的测试一样,o3-mini (medium)的表现已经开始优于满血版o1

响应速度(延迟)就更不用说,o3-mini的延迟显著低于o1-mini,其中o3-mini (low)的延迟甚至可以与GPT-4o媲美,低于1秒,实现了近乎实时的响应。

o3 安全测试申请

目前的o3还处于早期安全测试阶段,并且该测试面向公众开放申请。需要注意的是,申请截止日期是2025年1月10日。

申请地址:https://openai.com/index/early-access-for-safety-testing/

Day 12 完整版直播视频

OpenAI 12天直播发布回顾

OpenAI于12月5日开启“12天发布季”,本系列将在每个工作日持续更新,为小伙伴们带来第一手的更新解读,敬请关注。

日期发布关键词详细解读文章
🌟 Day 1满血版 o1 · ChatGPT Pro 新套餐📖 满血版o1,200美元/月的ChatGPT Pro新套餐!
✨ Day 2强化学习微调 (RFT)📖 o1+强化学习微调=定制化推理模型!
🎥 Day 3文生视频模型 Sora📖 Sora文生视频模型真的来了?!
🖌️ Day 4ChatGPT Canvas📖 ChatGPT Canvas全面升级,免费开放!
🍎 Day 5Apple Intelligence📖 ChatGPT+Siri=新Apple Intelligence!
🎄 Day 6视频聊天 · 屏幕共享 · 圣诞模式📖 ChatGPT视频聊天、屏幕共享和圣诞语音包!
🚀 Day 7ChatGPT Projects📖 ChatGPT推出Projects,本周最强功能!
🔍 Day 8ChatGPT Search📖 ChatGPT Search全面升级,免费开放!
💡 Day 9o1 API · Realtime API · 偏好微调📖 o1 API正式发布,实时API升级,偏好微调PFT!
📞 Day 10电话直拨ChatGPT · WhatsApp支持📖 电话直拨ChatGPT,最鸡肋的功能,来了!
💻 Day 11Work with Apps📖 ChatGPT桌面客户端升级,就这?

结语

超越人类智商的o3,给AI插上了想象力的翅膀。


精选推荐


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值