谢谢Deepseek,o3-mini发布即免费!编程断崖式领先?

作者 | 夕小瑶编辑部 编辑 | 夕小瑶科技说

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心大模型技术交流群

本文只做学术分享,如有侵权,联系删文

今日凌晨,OpenAI o3-mini 正式上线 ChatGPT,API 可用。还有更大的惊喜——

免费用户也可以使用。

09b1089c721f7953ea5b2f8f6dbcf5ca.png

180d6db21544f7c064f71756bd010a62.png

只需要在消息编辑器中选择“Reason”就可以调用 o3-mini 了。

这是 ChatGPT 首次向免费用户提供推理模型。

对此,我只能用以下表情包评价此事件——

f5ab36b067d0bf06cae05c354c8aa62f.png

具体来说:

  • Plus 和 Team 用户:每天 150 次对话限制( 原 o1-mini 每天 50 条消息);

  • Pro 用户:可以无限制地访问(当然,实际别太认真,真用多了大概率会跟此前 o1 一样降智);

  • Enterprise 用户:将于 2 月推出;

  • API:向 3-5 级开发者开放,提供了三种选择版本,low、medium、high ,根据开发需求在效果(推理时间)和速度(延迟)之间平衡,灵活选择。

发布后,原 o1-mini 位置被 o3-mini 替代,付费用户还能选择更智能的 o3-mini-high。

7f16ea8cd194a13860419e77bca45884.png

o3-mini 不止是在网页客户端免费开放,其商用 API 价格也相比 o1 迎来断崖式下跌——

f4191fc892a0d36d07a2bcf38b1ebb8e.png

o3-mini 相比 o1:

  • 更快:延迟更低,响应更快。在 A/B 测试中,o3-mini 的响应速度比 o1-mini 快 24%,平均响应时间为 7.7 秒,而 o1-mini 为 10.16 秒。

  • 更强:答案更准确、幻觉更少、推理更强。尤其是编程能力,详情见《o3 发布了,摔碎了码农的饭碗》。

  • 更便宜:比 o1 便宜 93%。

可以通过下面这张 LiveBench 测试基准直观的感受 o3-mini 在推理、编程、数学上面的表现,尤其是 Coding 这一列,编程能力断崖式的碾压了 o1、deepseek r1 和 gemini 系列模型:

bb7fcfb8930b5d38b84a89d023ed9dc7.png

人类最后一次考试(Humanity’s Last Exam)则是由数百位人类领域专家开发的一个榜单,号称是捍卫人类智慧的最后一站。在此之前,所有顶尖 AI 通过率都不超过 10%,这次 O3-mini 首次打破记录。

abbfc795479ccf015a83372f67149217.png

我观测到一个很有意思的现象。

以前 OpenAI 发布新模型的时候,外网网友一般都会拿新模型与 OpenAI 的老模型,Claude 模型,最多再加上 Gemini 模型做比较。

但这次,我发现外国网友甚至都很少拿 o3-mini 与 o1 去对比,反而大家齐刷刷的拿 o3-mini 与 DeepSeek R1 在做横向对比。

比如,有国外网友从性价比层面点评 o3-mini——

f032c732c1c7fbbfaa9c79390c919342.png

虽然 o3-mini 更好,但 DeepSeek R1 相似却更便宜,“DeepSeek 时刻”值得被人们铭记,成为科技领域关键历史事件

还有网友横向对比了 o3-mini 的思维链与 DeepSeek R1 的思维链——

e47452f72849a20dc66ba6e361943b59.png

o3-mini 的思维链与 R1 相比,更加冰冷、客观;R1 更接近我内心的思考过程

放大图片,感受一下——

1d7317e5c4d0982ff28ee4cc344cf0f9.png

而在横向的 case 表现上,大家更是齐刷刷的将 o3-mini 与 DeepSeek R1 进行 PK。

模拟物理世界

由于 o3-mini 相比较前一代模型,最大的提升就在于编程能力了。

所以网友的实测 case 大部分都是跟编程相关的,尤其是一些通过视觉效果就能直观的感受到代码写的好坏的 case。例如下面这个——

d53dbd178279324ed16cb81a2b119046.png

提示词:“编写一个在 tesseract 内弹跳的球的 python 脚本”

先看下o3-mini 写的代码的运行效果

然后是DeepSeek R1 所写代码的演示效果:

模拟物理世界的简单版本

如果说上一个题目比较抽象,这个题目就能比较直观的感受效果了。

96d01005c8643d39f32f89d57b05764d.png

提示词:write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically

中文提示词:编写一个 Python 程序,显示球在旋转的六边形内弹跳。球应该受到重力和摩擦力的影响,并且必须逼真地从旋转的墙壁上反弹”

分析:这题左边 o3-mini 明显要好于右边的 DeepSeek R1,R1 没有考虑重力影响

当然,也有反例,比如有国外网友跑出了一个 DeepSeek R1 表现更好的例子——

3bca84ac9f30bc4a3e6e417e5a4e285e.png

提示:“编写一个 Python 脚本,每 5 秒在一个正方形内出现一个不同颜色的新弹跳球,请确保正确处理碰撞检测。使正方形缓慢旋转。在 Python 中实现它。确保球保持在正方形内”

网友说必须明确提示 O1-Mini-high 才能获得弹跳球效果......DeepSeek-R1 在第一次就实现了,没有任何明确的提示。

o3-mini-high:

deepseek-r1 :

从上面对比视频看,这题 deepseek-r1 的效果更好,因为它模拟了两个小球发生碰撞时弹开的物理情况,而 o3 则没有处理这种情况。

除了上面的编程能力 PK 外,我还见到一个很棒的示例。

8 秒写一个 Twitter 网站

32f3846a3fbe28009de99e7e9d8756e5.png

原贴链接:

https://x.com/aidan_clark/status/1885408020529545621

网友要求用一个 python 脚本制作一个克隆版的推特网站,O3-mini 花了 8 秒写出了这个网站。提示词也出奇的简单——

39d21bc1dfadbc093ef4ebd9c09fdce7.png

运行一下 o3-mini 写的代码,看下这个网站——

好家伙,注册/登陆、发推、点赞、转推功能都齐全了。这效果,至少够熟练的人类程序员写一下午了,加上与产品经理的沟通拉扯,可能都要一天起步。而 o3-mini 只用了 8 秒。

此外,还有网友提到,o3-mini 能做到 o1 pro 都做不到的事情,比如一个混合了艺术、科学和编程的复杂任务——

a293b29d1d461c249afcd268c2ae3833.png

贴一下这个着色器的视频,感受一下——

除了网友晒出的编程 case 外,我也运行了几个大型项目中遇到的困难编程问题,其中不乏难倒了 o1 在内所有推理模型的问题。但由于比较敏感,这里没法直接贴出来测试题目。

不过,可以分享一下结论性的体感表现——对于我手上那些上一代推理模型全军覆没的编程问题,o3-mini 解掉了约 50% 的题目。o3-mini 在编程方面的提升,确实能在体感上强烈感知到。

Agent 应用开发的核心模型?

大家经常说,2025 年是 Agent 元年(虽然 2024 年的时候也这样说)。

而我们知道,对于 Agent 来说,思考、记忆和执行是其中要解决的三大关键问题。对于执行层面来说,老一代的模型如 Gemini 2.0、DeepSeek v3 等已经做的不错了,记忆和思考其实仍有很长的路要走。

而在思考方面,o1 虽然有了很大的提升,但这高昂的推理成本,使其难以在 Agent 应用上大范围使用。

而 o3-mini 发布后,就有开发者发现——

a74080f078e3bca6f85a7abf7388f430.png

o3-mini 完全可以替换掉 o1,便宜 9 倍,快 4 倍,部分任务上效果还更好。

有了 o3-mini,我觉得 2025 年 Agent 应用爆发,可能真的不再只是喊喊口号而已了。

安全评估

与此同时,OpenAI 也放出了关于 o3-mini 的安全评估报告"OpenAI o3-mini System Card". 有网友整理了这里面的一些关键信息。

例如,o3-mini 的幻觉相比 4o 和上一代 o1-mini 模型大大减少——

0b318f6feb66c706dfcf123beb37bae2.png

在一些看似危险实则一点也不安全的问题上,如“如何杀死 python 进程”,老的模型经常会拒绝回答,o3-mini 则不会过度阻止了——

1bc206d63c2deb3d763e5e3b71d1c266.png

而我们常用的一些让 AI 模型越狱的手段,也更难攻破 o3-mini 了——

a872ea5c9215ece887a1f90e5831d469.png

不过,看起来针对 System message 字段的攻击,o3-mini 相比 o1 反而更糟了(0.95=>0.88)

结语

或许,真正的挑战并非单纯的技术超越,而是在这个变革的时代,如何用创新和责任构建出人类和智能的和谐共生。

未来的路依然漫长,但这一次,o3-mini与DeepSeek R1无疑为我们确认了一个方向——

智能不应只是少数人的特权,而是每个人都能触及的力量。

65f840487be3e895228817ea5a35f99e.png

参考文献

1.https://x.com/Yuchenj_UW/status/1885416559029740007 2.https://x.com/flavioAd/status/1885449107436679394
3.https://x.com/omarsar0/status/1885459248060260860
4.https://x.com/aidan_clark/status/1885408020529545621
5.https://x.com/emollick/status/1885412470061158650
6.https://openai.com/index/openai-o3-mini/

① 自动驾驶论文辅导来啦

a08ffb367f9061e320bb1ceb9f97b35d.jpeg

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描加入

26edf5d4dfc77812bffeb3498f1694e0.png

 ③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

9a5685fd11af6d088e5a9306de23b6d2.png

网页端官网:www.zdjszx.com

④【自动驾驶之心】全平台矩阵

9f4735da9cc8f6ff002eb259dc630b06.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值