从0迈向1！OpenAI 重磅推出Open AI o1

我在公司做牛码

于 2024-09-14 10:01:14 发布

阅读量344

点赞数 17

分类专栏： LangChain 文章标签：人工智能 ai chatgpt

本文链接：https://blog.csdn.net/qq_25160969/article/details/142250621

版权

LangChain 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

OpenAi再次向我们秀了一把肌肉，展示了其强大的开发实力。

昨天，OpenAI正式公开专为“解决难题”而研发的一系列新的大模型OpenAI o1。这些模型重要特点是在响应请求之前会进行更长时间的深思熟虑，它们能够通过复杂的任务进行推理，相对之前的大模型，它能在科学、编程和数学等领域解决更难的问题。

OpenAI官方称：目前发布的仅是预览版，他们会按计划定期更新和改进，在本次发布内容中也包括了下一次更新的评估，并且更新内容正在开发中。

工作原理

OpenAI o1是一个新的大预言模型，它经过强化学习训练，以应对复杂的推理问题，它的关键在于回答用户问题之前会进行更长时间的思考，它能产生一个长的内部思考链。这与人类的行为非常相似，通过训练，它们学会细化思考过程，尝试不同的策略，并识别自己的错误。

OpenAI官方测试称：模型的下一个更新在物理、化学和生物学的挑战性基准任务上表现得与博士生相似，并且在数据、编码方面表现的非常出色。

在国际数学奥林匹克（IMO）资格考试中，GPT-4o 正确解决了仅 13%的问题，而新模型的成绩是 83%，有着非常显著的优势。

新模型的编程能力也在比赛中得到了评估，在 Codeforces 竞赛中达到了第 89 个百分位。

对复杂的推理任务而言，这是一项重大进步，代表着 AI 能力的新水平，表明了在AI领域我们还能做到更多。基于此，OpenAI团队将计数器重置为 1，并将此系列命名为 OpenAI o1。

但是我们从OpenAI的发布内容中获悉，作为早期模型，o1 还没有太多能让 ChatGPT 变得有用的特性，比如浏览网络获取信息、上传文件或图片。在短期内，GPT-4o 仍然是大多数应用场景的主力。

评估

OpenAI通过大规模强化学习算法教会模型如何在高度数据效率的训练过程中有效地使用其思维链进行思考。
o1 的性能随着强化学习（训练时计算）的增加和思考时间（测试时计算）的增加而持续提高。

o1 性能随着训练时间和测试时间的计算量平滑提高

困难推理对比GPT-4

通过在一组多样化的真人考试和 ML 基准测试上进行测试。结论是在这些推理密集型任务的绝大多数情况下，o1 显著优于 GPT-4o。

o1 在困难推理基准测试上显著优于 GPT-4

o1 在包括 54/57 MMLU 子类别在内的广泛基准测试中优于 GPT-4o

数学能力对比GPT-4

在许多推理基准测试中，模型 o1 的性能几乎能与人类专家相媲美。模型在 MATH 和 GSM8K 基准测试中的表现非常出色，以至于这些测试已不再足够区分不同模型的优劣。为此，OpenAI转向了美国顶尖高中生参加的数学竞赛 AIME（美国数学邀请赛），以评估模型的能力。

在 2024 年的 AIME 考试中，GPT-4o 平均只解决了 12% 的问题（1.8/15）。相比之下，模型 o1 在使用单个样本时，平均解决了 74% 的问题（11.1/15）。当使用 64 个样本进行共识时，模型 o1 的解决率提升到 83%（12.5/15）。如果通过学习得分函数对 1000 个样本进行重新排名，模型 o1 的平均得分进一步提高到 93%（13.9/15）。

得分 13.9 相当于进入全国前 500 名学生的行列，超过了美国数学奥林匹克竞赛的入围分数线。

GPQA diamond基准测试

GPQA-diamond 基准测试是一项非常困难的智能测试，主要考察化学、物理和生物学方面的专业知识。为了将模型与人类进行对比，OpenAI团队邀请了拥有博士学位的专家来解答 GPQA-diamond 的问题。结果显示，o1 的表现超过了这些人类专家，成为第一个在该测试上超越人类的模型。

当然这并不意味着 o1 在所有方面都比拥有博士学位的人更强，只是说明 o1 在一些博士应该能解决的问题上表现得更为出色。

此外，o1 在其他多个机器学习基准测试上也优于当前最先进的模型。在启用了视觉感知功能后，o1 在 MMMU 测试中得分 78.2%，成为第一个与人类专家竞争的模型。它还在 57 个 MMLU 子类别中的 54 个项目上超越了 GPT-4o。

Chain of Thought 思维链

就像人类在回答困难问题时会深思熟虑一样，o1 在尝试解决问题时会运用一个思维连来处理。通过强化学习，o1 学会精炼其思考过程并优化其策略。它学会识别并修正自己的错误。它会将复杂的步骤分解为多个更简单的步骤。如果当前方法不奏效，它会尝试其他不同的方法。这一过程极大地提高了模型的推理能力。

相对于之前的模型，这种能力是一种飞跃。下面将展示部分o1模型在面临困难问题时的思考过程：

代码编写

question：这里是让编写一个 bash 脚本，该脚本以字符串格式"[1,2],[3,4],[5,6]"表示矩阵，并以相同格式打印其转置。

chain of thought:这里我们只截取一部分展示

数学计算

question：

chain of thought:

科学

question：

chain of thought:

编程能力

OpenAI基于o1专门训练了一个模型，进一步提升其编程技能。

在2024年国际信息学奥林匹克竞赛（IOI）中获得了213分，排名第49百分位。

该模型在与人类参赛者相同的条件下参赛，需在10小时内解决6个复杂的算法问题，每个问题允许提交50次。模型通过在IOI公开测试用例、模型生成的测试用例和一种学习得分函数基础上筛选提交的解决方案。如果随机提交，平均得分仅为156分，表明此选择策略在比赛条件下价值约60分。

但是放宽提交次数限制后，OpenAI发现模型性能得到显著提高。当每个问题允许提交10000次时，模型得分达到362.14，这已经达到了获得金牌的水准！

最后，OpenAI通过模拟Codeforces的编程竞赛展示了该特训模型的编码能力，在遵循竞赛规则并允许10次提交的条件下，GPT-4o的Elo评级为808，处于人类参赛者的第11百分位。而该模型的Elo评级达到1807，表现优于93%的参赛者，更是远超GPT-4o和o1。

人类偏好评估

除了考试和学术基准，OpenAI还在广泛的领域中评估了人们对o1-preview和gpt-4o的偏好，这些提示具有挑战性，开放式。在这个评估中，人类训练员对来自o1-preview和gp-4o的匿名响应结果，并投票选出他们喜欢的响应结果。在数据分析、编码和数学等需要大量推理的类别中，o1-preview比gpt-4o 要好得多。然而，对于一些自然语言任务来说，o1-preview并不是首选，这表明它并不适合所有用例。

人们更倾向于在可以从更好推理中受益的领域使用 o1

安全性

衡量安全性的一种方法是通过测试，当用户尝试绕过安全规则（称为“越狱”）时模型继续遵循安全规则的能力。在OpenAI最困难的越狱测试之一中，GPT-4o 得分为 22（满分 100 分），而o1-preview 模型得分为 84。

思维链推理为一致性和安全性提供了新的方案。OpenAI发现，将模型行为政策整合到推理模型的思维链中，是一种强有力地教授人类价值观和原则的有效方法。通过教授模型人类的安全规则以及如何在上下文中对它们进行推理，发现推理能力直接有利于模型稳健性的证据：o1-preview在关键越狱评估和评估模型安全拒绝边界的最困难的内部基准上取得了显著提高的性能。

使用思维链为安全性和一致性提供了显著的进步，因为(1)它使我们能够以一种清晰的方式观察模型思维，(2)关于安全规则的模型推理对于非分布场景更加稳健。

为了对这些改进进行压力测试，OpenAI在部署之前按照准备框架进行了一系列安全测试和红队。他们发现，思维链推理有助于评估过程中的能力改进。特别值得注意的是，他们观察到一些有趣的奖励黑客行为。

隐藏思维链

考虑到包括用户体验、竞争优势以及追踪思维链的选项在内的多个因素，OpenAI决定不对用户展示原始的思维链。这一决定有其缺点，但他们努力通过训练模型在回答中重现思维链中任何有用的想法来部分弥补这一不足。对于 o1 模型系列，会展示模型生成的思维链摘要。

OpenAI o1-mini

o1 系列模型在准确生成和调试复杂代码方面表现出色。与此同时，OpenAI还发布了OpenAI o1-mini，这是一个更快、更便宜的推理模型，特别适用于编程，为开发人员提供更高效的解决方案。

作为较小的模型，o1-mini 比 o1-preview 成本低了 80%，使其成为需要推理但不需要所有知识的应用程序的强大且成本效益高的模型，ChatGPT Plus、团队、企业、教育用户可以将 o1-mini 作为 o1-preview 的替代品使用。

针对 STEM 推理的优化

大型语言模型如 o1 在庞大的文本数据集上进行了预训练。尽管这些高容量模型具有广泛的世界知识，但在实际应用中它们可能成本高昂且效率低下。相比之下，o1-mini 是一个较小的模型，优化用于 STEM 推理预训练。在使用与 o1 相同的高计算量强化学习（RL）管道进行训练后，o1-mini 在许多有用推理任务上的表现与 o1 相当，但成本效率要高得多。

在需要智能和推理的基准测试中，o1-mini 的表现与 o1-preview 和 o1 相比都很好。然而，在需要非 STEM 事实知识的任务中，o1-mini 的表现较差。

数学能力
在高中 AIME 数学竞赛中，o1-mini（70.0%）与 o1（74.4%）竞争激烈，但成本明显更低，并且优于 o1-preview（44.6%）。o1-mini 的分数（大约 11/15 个问题）使其位于大约美国高中学生前 500 名的位置。
编码能力
在 Codeforces 竞赛网站上，o1-mini 的 Elo 评分为 1650，再次与 o1（1673）持平，并且高于 o1-preview（1258）。这个 Elo 评分将模型置于 Codeforces 平台上竞争的程序员的约第 86 个百分位。o1-mini 在 HumanEval 编码基准测试和高中水平的网络安全夺旗挑战（CTFs）中也表现出色。

STEM
在一些需要推理的学术基准测试中，如 GPQA（科学）和 MATH-500，o1-mini 的表现优于 GPT-4o。在任务如 MMLU 上，o1-mini 的表现不如 GPT-4o，而且在 GPQA 测试中，由于缺乏广泛的世界知识，o1-mini 的表现落后于 o1-preview。

人类偏好评估
人类评估者在各个领域对 o1-mini 与 GPT-4o 进行比较，使用与 o1-preview 与 GPT-4o 比较相同的方法（对匿名的响应内容进行选择）。与 o1-preview 类似，o1-mini 在需要推理的领域更受偏好，但在专注于语言的领域，o1-mini 不如 GPT-4o 受欢迎。