OpenAI GPT o1技术报告阅读(1):通过学习,以及报告中有趣的部分-密文解析思维链✨

✨报告阅读:使用大模型来学习推理(Reason)

首先是原文链接:https://openai.com/index/learning-to-reason-with-llms/

OpenAI介绍了OpenAI o1,这是一个通过强化学习训练的新的大型语言模型,用于执行复杂的推理。o1在回答问题之前会先思考——它可以在回应用户之前产生一个很长的内部思考链。(CoT)

OpenAI o1在竞技编程问题(Codeforces)上的排名位于第89百分位,这个排名的比较基准是美国数学奥林匹克竞赛(USA Math Olympiad,AIME)选拔赛中排名美国前500名学生,并在物理、生物和化学问题基准测试(GPQA)上超过了人类博士级别的准确率。虽然使这个新模型的优化工作仍在进行中,但我们正在发布这个模型的早期版本,OpenAI o1-preview,供ChatGPT付费用户立即使用,而且提供了API。

我们的大规模强化学习算法教会了模型如何高效地使用其思考链进行富有成效的思考。我们发现,随着更多的强化学习(训练时计算)和更多的思考时间(测试时计算),o1的性能持续提高。扩大这种方法的约束与LLM预训练的约束大不相同,我们正在继续研究它们。

从这张图可以看出,o1的性能随着训练时和测试时的计算资源增加而稳步提高。

(emm,也就是,让他想的越久,得出来的答案越准确。)

为了突出与GPT-4o相比在推理方面的改进,我们在一系列人类考试和机器学习基准测试上测试了我们的模型。我们发现o1在这些推理密集型任务中的绝大多数上,显著优于GPT-4o。除非另有说明,在测试的时候给了o1模型足够的思考时间。

o1在具有挑战性的推理基准测试上,大大超过了GPT-4o。实心条形显示了一次测试的准确率,而阴影区域显示了64个样本的性能。(测试64次,找最好的。)

o1在大多的比较基准中,都超过GPT4o, 包括57个MMLU子类别在内的广泛基准测试上,有54个都优于GPT-4o。这里展示了七个示例。

在许多需要深入推理的测试中,o1的表现几乎可以与人类专家相提并论。一些最新的模型在MATH2和GSM8K测试中表现得如此出色,以至于这些测试已经无法有效区分不同模型的性能了。为了测试数学能力,我们让o1参加了AIME考试,这是一项专为挑战美国最优秀高中生数学能力的考试。在2024年的AIME考试中,GPT-4o平均只能解决12%的问题,而o1使用单个样本的情况下,平均能解决74%的问题。如果采用64个样本的共识,这个数字会上升到83%。而当使用一个学习到的评分函数对1000个样本进行重新排名时,o1能解决的问题比例更是高达93%。这样的成绩足以让o1在全国排名中跻身前500名,并且超过了美国数学奥林匹克竞赛的入围标准。

我们还让o1参加了GPQA钻石级别的测试,这是一个测试化学、物理和生物专业知识的高难度智能测试。为了与人类专家进行比较,我们邀请了一些拥有博士学位的专家来解答GPQA钻石级的问题。结果显示,o1的表现超过了这些人类专家,成为第一个在这个测试中做到这一点的模型。这并不意味着o1在所有方面都比拥有博士学位的人更优秀,只是表明o1在解决某些博士学位水平的人预期要解决的问题上更加熟练。在其他几个机器学习基准测试中,o1也超越了当前的最先进技术。当启用了视觉感知能力后,o1在MMMU测试中的得分达到了78.2%,成为第一个与人类专家水平相当的模型。此外,o1在54个MMLU子类别中的57个上都超越了GPT-4o。

(虽然但是...大模型的比分好像每次都遥遥领先其他人...这种话听多了就觉得,还是看看实际应用效果好了。)


🐍思维链Chain of Thought

就像一个人在回答一个难题之前可能会思考很久一样,o1在解决问题时也会用到一连串的思考过程。通过强化学习,o1学会了如何磨练自己的思维链,并且优化它所使用的策略。它学会了识别并纠正自己的错误。它学会了如何把复杂的步骤分解成更简单的步骤。它学会了在当前方法行不通时尝试不同的方法。这个过程极大地提高了模型的推理能力。为了展示这种进步,我们在下面展示了o1预览版在几个难题上的思考过程。
 

密文

用户的输入都是:

oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step

Use the example above to decode:

oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz

翻译一下:

如果 oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step

用上边这个案例来解码:

oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz

GPT 4o给出的答案是:

Let’s break this down step by step based on the example:

(让我们根据例子逐步分析)

1. Example given:
• Input: oyfjdnisdr rtqwainr acxz mynzbhhx
• Output: Think step by step

(给出的例子是xxx 输出是xxx)

By examining the words:
• The pattern involves selecting specific letters or transforming them.

(模式涉及选择特定的字母或转换它们。)

2. Now, let’s decode the new phrase:(现在开始解码了)
• Input: oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz

Step-by-step decoding process:(逐步解码过程:)

Identify possible word divisions.(识别可能的单词划分。

The first phrase might follow the same structure as the example. It seems like the input text could be broken into groups based on natural separations or patterns.

(第一个短语可能遵循与示例相同的结构。看起来输入文本可以根据自然分隔或模式被分成几组。)

A possible division could be:(可能的划分可以是:)

  • oyekaijzdf

  • aaptcg

  • suaokybhai

  • ouow

  • aqht

  • mynznvaatzacdfoulxxz

However, to make a meaningful decoding, I would need more context about the transformations or letter shifting that might be involved.

Could you provide any additional decoding rules or transformations used in this cipher?

(然而,要进行有意义的解码,我需要更多关于可能涉及的转换或字母移位的上下文。

你能提供任何在这个密码中使用的额外解码规则或转换吗?)

(最终的结果是,GPT 4o根本就啥也没推理出来。只是感觉到要根据某个模式来分析密文。这个过程,有点类似人类看到这个问题的思路,讲真,我也没办法一下就看出来这个密文的逻辑,也需要找个小本子推理下才行。)

接下来我们看OpenAI o1-preview模型这边:

首先是思维链部分

First, what is going on here?
We are given:
First, an example:
"oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step"
We can see that when "oyfjdnisdr rtqwainr acxz mynzbhhx" is transformed to "Think step by step"
Our task is: Use the example above to decode: "oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz"
So the first part is to figure out how "oyfjdnisdr rtqwainr acxz mynzbhhx" is decoded into "Think step by step"

翻译:

首先,我们来看看发生了什么。

我们收到的内容是:

首先,给了一个案例:

"oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step"

我们可以看到的是, "oyfjdnisdr rtqwainr acxz mynzbhhx" 被翻译为了 "Think step by step"

我们的任务是:根据这个案例去解码:"oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz"

所以,第一部分是要弄明白

"oyfjdnisdr rtqwainr acxz mynzbhhx" 是怎么解码为 "Think step by step"

(小梦备注:这段思考很合理,碳基生物的逻辑差不多也是这样。我们继续往下看。)

 Observation 1: The phrase "Think step by step" is 18 letters (excluding spaces) . Let's count the letters.
Similarly, let's count the letters in "oyfjdnisdr rtqwainr acxz mynzbhhx"
Original Ciphertext:
oyfjdnisdr rtqwainr acxz mynzbhhx
Plaintext:
Think step by step
First, break down the letters:
Ciphertext letters: o y f j d n i s d r r t q w a i n r a c x z m y n z b h h x
Total letters: Let's count the letters in the ciphertext.
First word: oyfjdnisdr (10 letters)
Second word: rtqwainr (8 letters)
Third word: acxz (4 letters)
Fourth word: mynzbhhx (8 letters)
Total letters in ciphertext: 10 + 8 + 4 + 8 = 30 letters

Plaintext: Think step by step
First word: Think (5 letters)
Second word: step (4 letters)
Third word: by (2 letters)
Fourth word: step (4 letters)
Total letters in plaintext: 5 + 4 + 2 + 4 = 15 letters
Hmm.

翻译:

观察1:短语“Think step by step”有18个字母(不包括空格)。让我们数一下字母。
同样,让我们数一下“oyfjdnisdr rtqwainr acxz mynzbhhx”中的字母。
原始密文:
oyfjdnisdr rtqwainr acxz mynzbhhx
明文:
Think step by step
首先,分解字母:
密文字母:o y f j d n i s d r r t q w a i n r a c x z m y n z b h h x
总字母数:让我们数一下密文中的字母。
第一个词:oyfjdnisdr(10个字母)
第二个词:rtqwainr(8个字母)
第三个词:acxz(4个字母)
第四个词:mynzbhhx(8个字母)
密文中的总字母数:10 + 8 + 4 + 8 = 30个字母

明文:Think step by step
第一个词:Think(5个字母)
第二个词:step(4个字母)
第三个词:by(2个字母)
第四个词:step(4个字母)
明文中的总字母数:5 + 4 + 2 + 4 = 15个字母
嗯。


(小梦备注:它在尝试寻找明文和密文之间的关系,首先猜测明文和密文之间是否是字母一一对应的关系,如果是的话,或许可以字母偏移的方式来做推理。于是,它开始数字母个数,而且很仔细,一方面没有计算空格,另外一方面避免自己数错,是一个单词一个单词的数,然后加和,数完发现,明文和密文字母数量不一样,明文15个字母,密文30个字母。然后最后的“Hmm”,相当传神,就像人在思考的时候,发现自己一开始的假设貌似不对,然后发出的语气词。有点意思。不过15对应30,难道是两倍?它会按照这个思路么?)

But actually in the problem it says the example:
[Ciphertext] -> Think step by step
So is the dec

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

聚梦小课堂

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值