OpenAI草莓正式发布，命名o1， GPT-4o被碾压！

最新推荐文章于 2024-09-13 15:55:51 发布

AI老皮

最新推荐文章于 2024-09-13 15:55:51 发布

阅读量727

点赞数 9

文章标签：人工智能算法 AI大模型 AI 大模型 OpenAI ChatGPT

本文链接：https://blog.csdn.net/m0_59614665/article/details/142202212

版权

今晚，OpenAI最新模型空降！

GPT-4o竟然被碾压至此！！

Altman说它是迄今为止最强大、最一致的模型，新模型的名字是——o1 。

为什么不是GPT-4.5、GPT-5呢，因为它代表一个新范式的开始：

可以进行通用复杂推理的人工智能。

所以OpenAI这次从1重新开始计数，命名为o1。用一句话概括就是，o1擅长解决复杂问题，尤其是编码、数学、科学远超GPT-4o。

打个比方，你可以认为o1是一个极度偏科的理工科天才。

但是它有个缺点，在开始回答之前，它会花更长时间 思考，因为内部会产生一个非常长的思维链，进行足够深入的思考，从而可以解决复杂的推理任务。

这个也不难理解，高考数学的最后一道大题，花多点时间想也很正常。

把GPT-4o按在地上摩擦的o1，具体表现怎么样呢，还是得用数据说话。

一、先看模型表现

首先，它在数学和编码方面表现非常出色。

在国际数学奥林匹克（IMO）资格考试中，GPT-4o 只正确解决了 13% 的问题，而o1的得分是83%。
编码方面，OpenAI o1 在竞争性编程问题 (Codeforces) 中排名第 89%，
在物理、化学、生物学科中的表现达到了博士生水平，78分超越了人类专家69.7分。

而且，在众多基准测试上均超过了GPT-4o。

效果好到把大家都常用来测试的MATH和GSM8K干崩了，因为表现太好，不得已只能用美国奥数的题目来评比。

二、背后的思维链，可自主思考纠错

回复速度慢，尤其擅长数学和编码，与先前对草莓模型的爆料完全对应的上。为什么回复变慢？

因为OpenAI通过大规模强化学习算法，o1在回答问题前会产生一个内部的复杂的思维链，这使得它能够进行更深入的推理，并且o1学会了如何高效地使用其思维链。

类似于人类在回答难题之前，可能会思考很长时间，o1 在尝试解决问题时也会使用一系列思维。通过强化学习，o1 学会磨练其思维链并完善其策略,能认识并纠正错误。它学会将棘手的步骤分解为更简单的步骤。当这个方法不起作用时，它会尝试另一种方法。这个过程极大地提高了模型的推理能力。

为了培养o1模型的链式思维能力，OpenAI大规模的使用强化学习算法训练模型。

而OpenAI也没想到的是，随着更多的强化学习投入和思考时间的延长，o1模型的性能在不断地提高，这与LLM预训练时提高性能的方法有很大不同。

通过强化学习，o1模型学会了使用思维链，分步骤回答问题。

也就是说，在回答困难问题前，o1模型就像人类一样，可以自我纠正学习。

令人惊艳的是，o1模型可以自己判断答案是否正确，如果这个答案错误，它会再重新想办法解决。以此，o1模型的推理能力得到超大量级的提高。给你举个例子你就明白了。

用户：oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step。

通过上面的例子解码下文:

oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz

收到指令后，o1模型开始思考。

（看到o1的思维链，我的第一反应是：逻辑缜密到有些夸张了。废话真的非常非常多）

OpenAI o1-preview（以下为思考内容）：

首先，我们得到：

“oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step”

我们的任务是，使用上面的例子来解码：“oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz”。

所以第一部分是弄清楚“oyfjdnisdr rtqwainr acxz mynzbhhx”如何解码为“Think step by step”。

观察1：明文短语“Think step by step"”有15个字母（不包括空格），密文总字母有30个字母。

明文Think step by step第一个词5个字母，第二个词4个字母，第三个词2个字母，第四个词4个字母。

密文第一个词10个字母，第二个词8个字母，第三个词4个字母，第四个词8个字母。

选项1：尝试找到字母到字母的映射。有字母相匹配吗？

等一下。我想这里可能有一个字谜或替换密码。我认为我们可以注意到每组密文对应于一个明文单词。

检查一下字母数量……interesting.看来密文单词的长度是明文单词的两倍。

Idea：也许我们需要取出所有其他字母或相应地从密文中重建明文。如果我们从密文单词中取出所有其他字母，也许我们会得到明文。

选项1：采取奇数位置。从第一个单词开始，取密文的13579位，组成单词是ofdid。

Hmm，我们试一下映射字母：o f d i d --> Think。不太对。

选项2：假设每个明文字母对应于密文中的2个字母。拆分第一个密文字母就是：oy fj dn is dr，对应明文字母think。

oy->T，fj->h，dn->i，is->n，dr->k。

现在，从“oy”到“T”的映射是什么？有没有办法将“oy”映射到“T”？

选项1：字母之和。将字母转换为数字（A=1、B=2、…、Z=26）。

o=15，y=25，总和15+25=40。“T”是数字20。不太对。

或者，两个字母的平均值可能对应于“T”。(15+25)/2=20，即“T”。

等一下，这看起来很有希望。让我们用第二对来检查一下。字母“f”=6，“j”=10。

（6+10）/2=8，8对应于“h”，成功！

让我们用第三对来检查一下……（中略）

所以我们的代码是：对于每一对密文，字母对应数字值相加取平均值，得到对应的明文。

所以我们把明文放在一起就是：THERE ARE THREE RS IN STRAWBERRY。

我认为RS拼写应该是“R’s”，所以应该是：THERE ARE THREE R’s IN STRAWBERRY（草莓单词里有3个R）。