AI大模型：OpenAI o1或能成为引领AI Phenomenal Ride的LLM新范式

AI大模型-王哥

于 2024-09-26 20:55:37 发布

阅读量682

点赞数 11

文章标签：人工智能机器学习深度学习大模型教程大模型学习大模型入门

本文链接：https://blog.csdn.net/2401_84204413/article/details/142577751

版权

OpenAI 发布 o1 系列大模型，AI 大模型进入新纪元**。**9 月 12 日，OpenAI 宣布开发了一系列全新AI 模型，其被命名为 OpenAI o1-preview，旨在在回应前投入更多时间思考。与之前的模型相比，这些模型能够更好地进行推理，并在科学、编程和数学等领域解决更为复杂的问题。

o1 在物理、化 学和生物学等困难的基准任务中表现与博士生相似，此外，o1 在数学和编程领域也表现优异。在国际数学奥林匹克竞赛的资格考试中，GPT-4o 仅正确解答了 **13%**的问题，而 OpenAI o1 的正确率达到了 83%。在 Codeforces 编程比赛中， OpenAI o1 的表现达到了第 89 个百分位。

OpenAI o1 带来的是推理范式的全面革新，即利用大语言模型学习推理（Learning to Reason with LLMs）。 OpenAI 的大规模强化学习算法通过高度数据高效的训练过程，教会模型如何通过思维链条进行有效推理。OpenAI **发现，**o1 模型的性能随着更多的强化学习（训练时的计算量）以及更多的思考时间（测试时的计算量）而持续提升。

我们认为，OpenAI o1 并非是颠覆式的技术革命，但是其在工程化上已经达到了领先的地位，其在**自我对弈强化学习（Self-play RL）、思维链条（CoT）、过程奖励模型（PRM）**等技术实践运用方面取得了显著的进步，并且在深度思考和复杂推理上展现出了较高的能力。我们认为，o1 代表着 Scaling up **从预训练到推理的转变。**o1 带来的大模型技术创新，正推动 AI 向更深层次的智能推理与问题解决能力发展。

幻影视界今天分享的是人工智能AI行业研究报告：**《OpenAI o1初探：或能成为引领AI Phenomenal Ride的LLM新范式》，**报告版权方/来源：海通证券。

研究报告内容摘要如下****

在 OpenAI 的测试中，OpenAI o1 在物理、化学和生物学等困难的基准任务中表现与博士生相似。此外，OpenAI o1 在数学和编程领域也表现优异。在国际数学奥林匹克竞赛（IMO）的资格考试中，GPT-4o 仅正确解答了 13%的问题，而 OpenAI o1 的正确率达到了 83%。在 Codeforces 编程比赛中，OpenAI o1 的表现达到了第 89 个百分位。在 OpenAI 看来，这些增强的推理能力可能对解决科学、编程、数学等领域的复杂问题特别有用。例如，o1 模型可以帮助医疗研究人员注释细胞测序数据，物理学家生成量子光学所需的复杂数学公式，开发者在各个领域构建和执行多步工作流。

为了突出相较于 GPT-4o 在推理能力上的提升，OpenAI 对模型进行了多样化的人类考试和机器学习基准测试。结果显示，o1 在绝大多数推理密集型任务中明显优于 GPT-4o。

在许多推理密集型的基准测试中，o1 的表现与人类专家相媲美。OpenAI 评估了 o1 在 AIME 考试中的数学表现，该考试旨在挑战美国最优秀的高中数学学生。在 2024 年的 AIME 考试中，GPT-4o 平均仅能解答 12%的问题（即 1.8/15），而 o1 平均解答正确率为 74%（即 11.1/15），单次样本测试的结果为 83%（即 12.5/15）时通过 64 个样本的共识，若通过学习得分函数对 1000 个样本进行重新排名，其正确率达到了 93%（即 13.9/15）。得分 13.9 足以让其跻身美国全国前 500 名学生，并超过参加美国数学奥林匹克竞赛（USA Mathematical Olympiad）的分数线。

OpenAI 还对 o1 在 GPQA-diamond **基准测试上的表现进行了评估，该测试是一个困难的智力基准，评估在化学、物理和生物学方面的专业知识。**为了将模型与人类进行比较，OpenAI 邀请了拥有博士学位的专家来回答 GPQA-diamond 的题目。结果显示， o1 超越了这些人类专家的表现，成为首个在该基准测试中表现优于人类专家的模型。这一结果并不意味着 o1 在所有方面都比博士更有能力，而仅表明模型在解决某些问题上比博士生预期的表现更为出色。在其他多个机器学习基准测试中，o1 也超越了当前的最先进水平。启用了视觉感知功能后，o1 在 MMMU 测试中得分为 78.2%，成为首个在人类专家中具备竞争力的模型。此外，o1 在 MMLU 的 57 个子类别中，有 54 个超越了 GPT-4o 的表现。

o1 在编程领域表现优异，OpenAI 训练了一款模型，命名为 o1-ioi，这个模型在 2024 年国际信息学奥林匹克竞赛（IOI）中获得了 213 分，排名在第 49 百分位。该模型基于 o1 进行初始化，并进一步训练以提升编程技能。

o1-ioi 在 2024 年 IOI 比赛中与人类参赛者在相同条件下竞争，有 10 小时的时间解决 6 道复杂的算法问题，每题允许提交 50 **次解答。**对于每个问题，OpenAI 的系统生成了多个候选解答，并根据测试时的选择策略提交了 50 次解答。提交选择基于 IOI 公开测试案例、模型生成的测试案例以及学习到的评分函数。如果 OpenAI 随机提交解答，平均分数仅为 156 分，这表明该策略在比赛条件下贡献了近 60 分的提升。当放宽提交次数限制时，模型的表现显著提升。在每题允许提交 10000 次的情况下，o1-ioi 的得分达到 362.14 分，超过了金牌门槛，且不需要任何测试时的选择策略。

**最后，**OpenAI 模拟了 Codeforces 平台上举办的竞争性编程比赛，以展示 o1-ioi **的编程能力。**OpenAI 的评估严格遵循比赛规则，并允许 10 次提交。GPT-4o 的 Elo 评分为 808，位于人类竞争者的第 11 百分位。而 o1-ioi 远远超越了 GPT-4o 和 o1，达到了 1807 的 Elo 评分，表现超过了 93%的参赛者。

除了考试和学术基准测试外，OpenAI 还评估了在各种领域中 o1-preview 与 GPT-4o 在应对复杂、开放式问题上的人类偏好。在此评估中，人类训练师们会看到来自 o1-preview 和 GPT-4o 的匿名响应，并投票选择他们更喜欢的回答。结果显示，在推理密集型的任务类别中，如数据分析、编程和数学，o1-preview 相较于 GPT-4o 有显著优势。然而，在某些自然语言任务中，o1-preview 的表现不如 GPT-4o，这表明它并不适合所有应用场景。不同领域的偏好差异表明，o1-preview 虽然在推理和计算密集型任务上表现优异，但在某些自然语言任务中仍未超越 GPT-4o。

o1 在 AI 推理方面取得了显著的突破，推动了技术的前沿发展。OpenAI 计划随着持续优化，发布该模型的改进版本。OpenAI 预期，这些新的推理能力将提升 OpenAI 将模型与人类价值观和原则对齐的能力。OpenAI 相信，o1 及其后续版本将为科学、编程、数学及相关领域的 AI 应用开启许多新的应用场景。

**全新的推理范式：思维链条+**自我对弈强化学习

OpenAI o1 带来的是推理范式的全面革新，即利用大语言模型学习推理（Learning to Reason with LLMs）。OpenAI 的大规模强化学习算法通过高度数据高效的训练过程，教会模型如何通过思维链条进行有效推理。OpenAI 发现，o1 模型的性能随着更多的强化学习（训练时的计算量）以及更多的思考时间（测试时的计算量）而持续提升。这种方法的扩展约束与 LLM 的预训练方式有显著不同，OpenAI 仍在继续探索其中的奥秘。

OpenAI o1**，能给** AI 带来什么？

我们认为，OpenAI o1 的命名，从某种意义上摆脱了 GPT（Generative Pre-trained Transformer）这一过去命名过分强调预训练（Pre-trained）的意味，而是让它更成为一个更强调推理能力训练的模型系列。我们认为，o1 至少为困于数据和基建无法快速提升预训练规模的模型公司们提供了一个新的角度，从推理侧和强化学习的方法入手，加强模型的能力。

从某种意义上， OpenAI o1 **确实是第一个“推理模型”。**根据腾讯科技，月之暗面创始人杨植麟在一场分享中谈到了他对 o1 的看法，他认为，规模定律之后，大模型发展的下一个范式是强化学习，OpenAI o1 模型的发布，通过强化学习尝试突破数据墙，并看到计算更多向推理侧增加的趋势。

从应用的角度来看，o1 在很多领域的并不像现有的 GPT-4o 一样突出，在某些自然语言任务中，可能 o1 的表现仍不如 GPT-4o，OpenAI 对 o1-mini 的评价更是“缺乏广泛的世界知识”，此外 o1 也没有浏览网页或处理文件和图像的能力。

但是，在推理密集型的任务类别中，如数据分析、编程和数学，o1 相较于 GPT-4o 有显著优势，例如基于 o1 针对编程能力优化的 o1-ioi 在放宽提交次数限制时，能够在 2024 年国际信息学奥林匹克竞赛得分达到 362.14 分，超过了金牌门槛，且不需要任何测试时的选择策略，在某种程度上，我们认为，可以说 o1 在部分细分领域已经接近了当前人类的天花板，这就使得 o1 在部分细分的应用场景，已经接近“替代大部分人类” 这一目标。

根据 o1 现在的表现，我们认为，o1 处理复杂任务能力更加突出，它的先进推理能力可以提升科学研究、数学计算和编程领域的效率，我们推测，这可能是因为这些领域的任务通常具有明确的规则和目标，使得奖励函数更容易设计和优化，PRM 运作效率更高，但这也代表未来 o1 在 STEM 领域可能有更多的应用空间，还可能推动人工智能在生物制药、IC 制造等行业的创新应用，按照 o1 的发展思路，也许未来，人们能够让 AI **思考数小时、数天甚至数周，伴随着更高的推理成本，人类也会离新的抗癌药物、突破性的电池甚至黎曼猜想的证明更近。当然值得注意的是，**o1 目前仍处于 AI 发展的初级阶段。 根据深圳市人工智能产业协会官微，OpenAI 给 AI 划分了五个发展阶段。

第一级，「ChatBots」聊天机器人，比如 ChatGPT。

第二级，「Reasoners」推理者，解决博士水平基础问题的系统。

第三级，「Agents」智能体，代表用户采取行动的 AI 代理。

第四级，「Innovators」创新者，帮助发明的 AI。

第五级，「Organizations」组织，AI 可以执行整个人类组织的工作，这是实现 AGI的最后一步。

**我们认为，按照这个标准，**o1 目前在第二级，人类距离 AGI 的道路仍然道阻且长。 不过，根据 Tracking AI，o1 在最新门萨智商测试中，IQ 水平超过了 120 分，远超目前业界其他大模型的水平，而且值得注意的是，这仅仅是 o1-preview 的水平，这也代表着 o1 这类大模型所蕴含的巨大潜能。

**我们相信，**o1 代表的是全新的大模型推理范式，这一范式也许能够改变人们对于“智能”这一概念的理解，当然，正如 Ilya 的论文标题所写，这仍需要“一步步验证（Let’s Verify Step by Step）”，但是也许数十年后，回望如今，我们也能说出，我们很幸运能够 “at the right place at the right time”，这是属于 AI 的“Phenomenal Ride”。

幻影视界整理分享报告原文节选如下：