Open o1技术报告—“感受算法之美”-CSDN博客

本文链接：https://blog.csdn.net/qq_52293640/article/details/145458978

OpenAI o1技术报告《Learning to reason with LLMs》，中文标题翻译为：《让语言大模型学会推理》

报告链接：Learning to reason with LLMs | OpenAIhttps://openai.com/index/learning-to-reason-with-llms/https://openai.com/index/learning-to-reason-with-llms/https://openai.com/index/learning-to-reason-with-llms/概览：

1. 摘要

OpenAI o1，这是一种新的大型语言模型，经过强化学习训练，可以执行复杂的推理。o1在回答之前会思考——在响应用户之前，它可以产生一个很长的内部思维链。

OpenAI的o1模型在多个领域展示了卓越的性能：

在竞争性编程问题（Codeforces）中，o1位于第89百分位。
在美国数学奥林匹克资格赛（AIME 2024）中，o1的表现足以让其跻身美国前500名学生之列。
在涵盖物理、生物和化学问题的博士级准确度基准测试（GPQA Diamond）中，o1超过了人类博士水平的准确性。

2. 成果

2.1 随着更多的强化学习（即训练计算资源的增加）和更多时间用于“思考”（即测试时计算资源的增加），o1的性能会持续提升。

2.2 在o1模型与GPT-4o之间进行比较。结果显示，在绝大多数需要强推理能力的任务上，o1的表现显著优于GPT-4o。这表明o1在处理复杂、需要深入分析的问题方面具有优势。

2.3 在许多需要大量推理的基准测试中，o1 的表现可以与人类专家相媲美。

（1）数学能力测试

为了评估数学能力，选择了旨在挑战美国最优秀高中生的AIME考试。2024年的AIME考试结果如下：

GPT-4o平均仅能解决12%（1.8/15）的问题。
o1单样本尝试时平均解决了74%（11.1/15）的问题。
当使用64个样本达成共识时，准确率提升至83%（12.5/15）。
使用学习到的评分函数对1000个样本进行重新排序后，准确率高达93%（13.9/15）。

得分13.9不仅让o1的成绩跻身全国前500名学生之列，还超过了参加美国数学奥林匹克竞赛的分数线。

（2）GPQA钻石级别测试

这是一个难度极高的智能基准测试，旨在评估化学、物理和生物学方面的专业知识。为了进行有效对比，OpenAI邀请了拥有博士学位的专家回答GPQA-钻石级别的问题。结果发现，o1的表现超越了这些人类专家，成为首个在此基准上实现这一成就的模型。需要注意的是，这并不意味着o1在所有方面都优于拥有博士学位的专家，而是在解决某些预期由博士水平人士解决的问题时更为熟练。

（3）Coding水平

结果突显了通过特定领域的训练和优化策略，AI模型可以在复杂编程任务中达到甚至超过顶级人类选手的表现。

重点内容：

IOI 2024成绩：初始化自o1并通过额外训练以提升编程能力的模型，在2024年的IOI中得分213分，排名位于第49百分位。该模型与人类参赛者在相同的条件下进行比赛，即有十小时解决六个复杂的算法问题，并且每个问题允许提交50次。
提交策略：对于每个问题，系统会生成多个候选提交方案，并根据测试时的选择策略选出50个提交。选择依据包括IOI公开测试案例的表现、模型生成的测试案例以及一个学习到的评分函数。如果采用随机提交的方式，平均得分仅为156分，表明所使用的策略在比赛限制下价值近60分。
放宽提交限制的影响：当每个问题的提交次数增加至10,000次时，即使没有使用任何测试时选择策略，模型的得分也达到了362.14分，超过了金牌分数线。
Codeforces模拟赛表现：为了展示该模型的编程技能，还在Codeforces举办的模拟编程比赛中进行了评估。遵循竞赛规则并允许10次提交的情况下，GPT-4o的Elo评分为808，位于人类竞争者的第11百分位。而基于o1改进的模型获得了1807的Elo评分，超越了93%的竞争者。

（4）其他水平

人类训练师被展示来自o1-preview和GPT-4o的匿名响应，针对具有挑战性的开放式提示进行投票，选择他们更偏好的响应。

在需要强推理能力的类别中，如数据分析、编程和数学，o1-preview相比GPT-4o获得了更大的偏好优势。

然而，在某些自然语言处理任务上，o1-preview并不受到偏好，这表明它可能不适合所有类型的使用场景。

3. Chain of Thought-思考链

（1）思维链机制：类似于人类在回答难题前会进行长时间思考，o1在尝试解决问题时也会使用一种“思维链”。这意味着模型能够生成一系列逻辑步骤，以系统地处理和解决复杂问题。

（2）强化学习的作用：通过强化学习，o1学会了优化其思维链并改进所使用的策略。它能够学会识别和纠正错误，将复杂的步骤分解为更简单的部分，并在当前方法不奏效时尝试不同的解决途径。这一过程显著提升了模型的推理能力。

4. 重点

Reinforcement Learning — 强化学习
It learns to recognize and correct its mistakes. It learns to break down tricky steps into simpler ones. It learns to try a different approach when the current one isn’t working. （它学会识别并纠正自己的错误，学会将复杂的步骤分解为更简单的步骤，学会在当前方法行不通时尝试不同的解决途径。）这些是模型自己学的，不是人教的。