OpenAI草莓正式发布,命名o1, GPT-4o被碾压!

今晚,OpenAI最新模型空降!

GPT-4o竟然被碾压至此!!

Altman说它是迄今为止最强大、最一致的模型,新模型的名字是——o1

为什么不是GPT-4.5、GPT-5呢,因为它代表一个新范式的开始:

可以进行通用复杂推理的人工智能。

所以OpenAI这次从1重新开始计数,命名为o1。用一句话概括就是,o1擅长解决复杂问题,尤其是编码、数学、科学远超GPT-4o

打个比方,你可以认为o1是一个极度偏科的理工科天才。

但是它有个缺点,在开始回答之前,它会花更长时间 思考,因为内部会产生一个非常长的思维链,进行足够深入的思考,从而可以解决复杂的推理任务。

这个也不难理解,高考数学的最后一道大题,花多点时间想也很正常。

把GPT-4o按在地上摩擦的o1,具体表现怎么样呢,还是得用数据说话。

一、先看模型表现

首先,它在数学和编码方面表现非常出色。

  • 在国际数学奥林匹克(IMO)资格考试中,GPT-4o 只正确解决了 13% 的问题,而o1的得分是83%。
  • 编码方面,OpenAI o1 在竞争性编程问题 (Codeforces) 中排名第 89%,
  • 在物理、化学、生物学科中的表现达到了博士生水平,78分超越了人类专家69.7分。

而且,在众多基准测试上均超过了GPT-4o。

效果好到把大家都常用来测试的MATH和GSM8K干崩了,因为表现太好,不得已只能用美国奥数的题目来评比。

二、背后的思维链,可自主思考纠错

回复速度慢,尤其擅长数学和编码,与先前对草莓模型的爆料完全对应的上。为什么回复变慢?

因为OpenAI通过大规模强化学习算法,o1在回答问题前会产生一个内部的复杂的思维链,这使得它能够进行更深入的推理,并且o1学会了如何高效地使用其思维链。

类似于人类在回答难题之前,可能会思考很长时间,o1 在尝试解决问题时也会使用一系列思维。通过强化学习,o1 学会磨练其思维链并完善其策略,能认识并纠正错误。它学会将棘手的步骤分解为更简单的步骤。当这个方法不起作用时,它会尝试另一种方法。这个过程极大地提高了模型的推理能力。

为了培养o1模型的链式思维能力,OpenAI大规模的使用强化学习算法训练模型。

而OpenAI也没想到的是,随着更多的强化学习投入和思考时间的延长,o1模型的性能在不断地提高,这与LLM预训练时提高性能的方法有很大不同。

通过强化学习,o1模型学会了使用思维链,分步骤回答问题。

也就是说,在回答困难问题前,o1模型就像人类一样,可以自我纠正学习。

令人惊艳的是,o1模型可以自己判断答案是否正确,如果这个答案错误,它会再重新想办法解决。以此,o1模型的推理能力得到超大量级的提高。给你举个例子你就明白了。

用户:oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step。

通过上面的例子解码下文:

oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz

收到指令后,o1模型开始思考。

(看到o1的思维链,我的第一反应是:逻辑缜密到有些夸张了。废话真的非常非常多)

OpenAI o1-preview(以下为思考内容):

首先,我们得到:

“oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step”

我们的任务是,使用上面的例子来解码:“oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz”。

所以第一部分是弄清楚“oyfjdnisdr rtqwainr acxz mynzbhhx”如何解码为“Think step by step”。

观察1:明文短语“Think step by step"”有15个字母(不包括空格),密文总字母有30个字母。

明文Think step by step第一个词5个字母,第二个词4个字母,第三个词2个字母,第四个词4个字母。

密文第一个词10个字母,第二个词8个字母,第三个词4个字母,第四个词8个字母。

选项1:尝试找到字母到字母的映射。有字母相匹配吗?

等一下。我想这里可能有一个字谜或替换密码。我认为我们可以注意到每组密文对应于一个明文单词。

检查一下字母数量……interesting.看来密文单词的长度是明文单词的两倍。

Idea:也许我们需要取出所有其他字母或相应地从密文中重建明文。如果我们从密文单词中取出所有其他字母,也许我们会得到明文。

选项1:采取奇数位置。从第一个单词开始,取密文的13579位,组成单词是ofdid。

Hmm,我们试一下映射字母:o f d i d --> Think。不太对。

选项2:假设每个明文字母对应于密文中的2个字母。拆分第一个密文字母就是:oy fj dn is dr,对应明文字母think。

oy->T,fj->h,dn->i,is->n,dr->k。

现在,从“oy”到“T”的映射是什么?有没有办法将“oy”映射到“T”?

选项1:字母之和。将字母转换为数字(A=1、B=2、…、Z=26)。

o=15,y=25,总和15+25=40。“T”是数字20。不太对。

或者,两个字母的平均值可能对应于“T”。(15+25)/2=20,即“T”。

等一下,这看起来很有希望。让我们用第二对来检查一下。字母“f”=6,“j”=10。

(6+10)/2=8,8对应于“h”,成功!

让我们用第三对来检查一下……(中略)

所以我们的代码是:对于每一对密文,字母对应数字值相加取平均值,得到对应的明文。

所以我们把明文放在一起就是:THERE ARE THREE RS IN STRAWBERRY。

我认为RS拼写应该是“R’s”,所以应该是:THERE ARE THREE R’s IN STRAWBERRY(草莓单词里有3个R)。

当然,这种复杂推理非常消耗时间,而比较可惜的是,在文章写作和编辑方面,o1模型不仅会浪费很长时间来思考,得出的结果也并不尽人意。在评估中,o1模型处理自然语言任务的效果,还不如GPT-4o。

所以,o1 并不适合所有场景!

而且……OpenAI总会在给人希望的地方让人失望。

传OpenAI的原话:

权衡了用户体验、竞争优势、以及对思维链进行监控等多种因素后,我们决定不向用户展示原始思维链。

这一切都源于OpenAI的病态追求:安全!安全!安全!

OpenAI未雨绸缪:假设公开了思维链,会不会出现“模型思维链把用户思路带偏、甚至控制用户思维”的现象。

此外,为了保证模型的思维链足够“原生”、足够“自由”,OpenAI还不能将一些政策规范和用户偏好强加到思维链中,而正是因为“不够对齐”,让OpenAI感到深深的担忧。

好吧,在美国国家安全局监管下,我懂~

作为补偿,OpenAI正在努力调整o1模型,让它能在回答中展示思维链的摘要。

我只想问:思维链的摘要会占用输出tokens吗?会不会把我的钱包吃干抹净?

诶,说到钱的问题,OpenAI还一并出了一个OpenAI o1-mini模型。

关于o1和o1-mini,关系就像4o和4o-mini,mini模型是小模型,速率更快,延迟更低,更便宜,当然效果也会砍一些。

不过,在推理方面还是比4o要强不少。

三、怎么体验o1

o1和o1-mini这两个模型,今天会在ChatGPT中上线,Plus和Team订阅用户可以直接体验了。

开发者也能通过API访问使用,其中mini模型比原模型便宜80%。另外Enterprise和Edu用户也可以使用o1-mini模型。

但是但是,目前的请求频率有限制,o1-preview 的每周速率限制为 30 条消息,o1-mini 的每周速率限制为 50 条。(太少了)

没有waitlist,但也太少了,约等于没用。


最后分享

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!

在这里插入图片描述

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

5. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值