关于 OpenAI 新模型 o1/o1-mini 的信息整理

最新推荐文章于 2024-09-27 10:52:42 发布

AI王也

最新推荐文章于 2024-09-27 10:52:42 发布

阅读量838

点赞数 27

文章标签：人工智能

本文链接：https://blog.csdn.net/nsyglsp/article/details/142485684

版权

如果大家还没用到新模型，这里整理一些信息。先筛选一些个人感兴趣的重要信息放在前面,

Your personal AI productivity tool for a smarter brain.

省流版：

从今天开始，ChatGPT Plus 和 Team 用户将能够访问 ChatGPT 中的 o1 模型。o1-preview 的每周速率限制为 30 条消息，o1-mini 的每周速率限制为 50 条消息。（充 $200 的大哥们只不过是能得到更多使用次数吗？）
Q* = Strawberry = o1
o1 不是 GPT 的下一代模型！o1 和 GPT-4o在不同领域各有所长。o1 擅长 STEMSTEM 领域和需要大量思考的问题，并不擅长需要常识知识的知识。OpenAI 计划在之后分别研发 GPT 和 o1 系列模型。
o1/o1-mini 均为 128K 上下文，训练知识截止 2023 年 10 月。（和 GPT-4o 一致）
o1 的AP价格为 $15 / 1M 输入 tokens，$60 / 1M 输出 tokens；o1-mini 的价格为 $3 / 1M 输入 tokens，$12 / 1M 输出 tokens

官方发布 o1-preview 和 o1-mini 的 Blog： Introducing OpenAI o1-preview （里面有几段视频值得看）

强大的推理能力：OpenAI o1 系列模型能花更多时间思考问题，在科学、编程和数学等复杂任务中表现优于以往模型，如在国际数学奥林匹克竞赛国际数学奥林匹克竞赛国际数学奥林匹克竞赛资格考试中，GPT-4o 仅正确解决 13% 的问题，而推理模型得分达 83%。
新的安全训练方法：OpenAI 在开发新模型时采用新的安全训练方法，利用模型的推理能力使其遵守安全和对齐准则，在一项最难的越狱测试中，o1 预览模型得分 84，远高于 GPT-4o 的 22 分。
OpenAI o1-mini 的优势：OpenAI o1-mini 是一个更快、更便宜的推理模型，在编码方面特别有效，成本比 o1 预览版预览版预览版低 80%，适合需要推理但不需要广泛世界知识的应用。
适用人群和使用方式：OpenAI o1 系列对解决科学、编程、数学等领域的复杂问题很有用，ChatGPT Plus 和 Team 用户 9 月 12 日起可在 ChatGPT 中使用，ChatGPT EnterprisehatGPT EnterpriseChatGPT Enterprise 和 Edu 用户下周可用，符合 API 使用等级 5 的开发者也可在 API 中使用。
未来发展计划：OpenAI 计划为这些模型增加网络浏览、文件和图像上传等功能，继续开发 GPT 系列GPT 系列GPT 系列和 OpenAI o1 系列模型，并计划让所有 ChatGPT 免费用户使用 o1-mini。

官方介绍 o1 的 Blog： Learning to Reason with LLMs （里面有几个推理的实际案例比较值得看）

2024 年 9 月 12 日，OpenAI 推出新的大型语言模型OpenAI o1，它通过强化学习进行训练以执行复杂推理。

强大的推理能力：OpenAI o1 在竞争性编程问题、美国数学奥林匹克预选赛、物理生物化学问题基准测试基准测试基准测试中表现优异，大幅超越 GPT-4o，在很多任务中可与人类专家媲美。
独特的思维链思维链思维链：o1 像人类一样在回答难题前进行长时间思考，通过强化学习优化思维链和策略，提升推理能力，在解码等任务中得以体现。
编程能力出色：从 o1 初始化训练的模型在国际信息学奥林匹克竞赛国际信息学奥林匹克竞赛国际信息学奥林匹克竞赛中表现出色，在不同提交约束下都有良好成绩，且在模拟的编程竞赛中远超 GPT-4o 和 o1。
人类偏好评价：在数据分析、编码和数学等推理任务中，o1-preview 被人类偏好程度远高于 GPT-4o，但在一些自然语言任务中并非如此。
安全性提升：思维链推理为对齐和安全提供新机会，o1-preview 在多项安全评估中表现更好，如对有害提示的安全完成率更高。

官方介绍 o1-mini 的 Blog： OpenAI o1-mini

2024 年 9 月 12 日，OpenAI 发布了 OpenAI o1-mini，这是一个具有成本效益的推理模型。

成本效益高：OpenAI o1-mini 是一个成本高效的推理模型，对需要推理但不需要广泛世界知识的应用来说，是一个更快、更具成本效益的选择。其成本比 OpenAI o1-preview 便宜 80%，且 ChatGPT Plus、Team、Enterprise 和 Edu 用户可将其作为 o1-preview 的替代选择，具有更高的速率限制和更低的延迟。
STEM 领域表现出色：在 STEM 领域，特别是数学和编程方面表现优异。在高中 AIME 数学竞赛中，o1-mini 与 o1 竞争力相当且更便宜，还在 Codeforces 竞争网站上取得较高的 Elo 分数，在 HumanEval 编码基准和高中级网络安全夺旗挑战中也表现良好。在一些学术基准上，如 GPQA 和 MATH-500，o1-mini 甚至超过 GPT-4o。
安全性能良好：o1-mini 使用与 o1-preview 相同的对齐和安全技术进行训练，在内部版本的 StrongREJECT 数据集上，其越狱鲁棒性鲁棒性鲁棒性比 GPT-4o 高 59%。在部署前，经过了与 o1-preview 相同的准备、外部红队测试和安全评估。
存在局限性及未来方向：由于专注于 STEM 推理能力，o1-mini 在非 STEM 主题上的事实知识有限，类似于小型语言模型 GPT-4o mini。未来版本将改善这些局限性，并尝试扩展到 STEM 以外的其他模式和专业领域。

模型 System Card： o1-system-card

模型价格： OpenAI Pricing

OpenAI o1 不是 GPT-4o 的继任者。不要直接替换它。

★★★ Reasoning models

提示词使用建议：这些模型在面对直接的提示时表现最佳。一些提示工程提示工程提示工程技巧，如少样本提示或让模型“step-by-step thinking”，可能无法提升性能，有时甚至会产生负面影响。以下是一些最佳实践最佳实践最佳实践：

保持提示简单直接：模型擅长理解简短、清晰的指令，无需过多引导。
避免思维链提示：由于这些模型会在内部完成推理，提示它们“逐步思考”或“解释推理过程”是没有必要的。
使用分隔符增加清晰度：使用三重引号三重引号、XML 标签或章节标题等分隔符，清晰标明输入的不同部分，有助于模型正确解读。
限制检索增强生成（RAG）中的附加上下文：在提供附加的上下文或文档时，只包含最相关的信息，避免模型的回应过于复杂。

o1 是首个通过强化学习训练，在回答前深入思考问题的模型。这是一个充满巨大机遇的新范式。这在定量上已经很明显（例如，推理指标有了阶梯式的提升），在定性方面也有所体现（例如，忠实的思维链使模型更具可解释性，你可以通过直白的英语“读取模型的思维”）。

可以这样理解：模型通常进行的是“系统一”思维，而思维链则解锁了“系统二”思维。人们早已发现，提示模型“一步一步思考”可以提升性能。但通过试错法端到端地训练模型这样做，要更加可靠——正如在围棋或 Dota 等游戏中的表现一样，这种方法能产生极其令人印象深刻的成果。

★ OpenAI VP Peter Welinder（利好老黄）

第一步是扩大模型规模。下一步是扩大测试时计算量。大语言模型（LLM） -> 测试时计算（TTC）。

这是一件大事。我们正在迅速迈向一个你可以决定为某个问题投入多少 GPU 小时的世界。

更多的 GPU 小时 = 更多的思考 = 更好的解决方案。

想象一下，只需在键盘上敲几下，你就能让 1000 名博士并行工作，解决你的问题。

OpenAI Strawberry(o1) 发布了！我们终于看到了推理计算扩展的范式被推广并投入生产。正如 Sutton 在 The Bitter Lesson 中所说，只有两种技术可以随着计算量无限扩展：学习和搜索。是时候将重点转移到后者上了。

1. 你不需要一个庞大的模型来进行推理。许多参数用于记忆事实，以便在像 Trivia QA 这样的基准测试中表现出色。可以将推理与知识分离出来，也就是通过一个小型的“推理核心”来调用诸如浏览器和代码验证器这样的工具。这将减少预训练所需的计算量。

2. 大量计算已经从预训练/后训练阶段转移到了推理服务阶段。LLM 是基于文本的模拟器，通过在模拟器中展开各种可能的策略和场景，模型最终会找到好的解决方案。这一过程类似于 AlphaGo 中的蒙特卡罗树搜索（MCTS）。

3. OpenAI 很早就可能发现了推理扩展定律，而学术界才刚刚开始研究。上个月，有两篇论文相隔一周发布在 Arxiv 上：

• 《大型语言猴子：通过重复采样扩展推理计算》。Brown 等人发现，DeepSeek-Coder 的准确率从单一样本的 15.9% 提升到 250 样本时的 56%，超过了 Sonnet-3.5 在 SWE-Bench 上的表现。

• 《扩展测试时计算比扩展模型参数更有效》。Snell 等人发现，在 MATH 基准测试中，PaLM 2-S 通过测试时的搜索击败了一个大 14 倍的模型。

4. 将 o1 投入生产远比搞定学术基准测试要复杂得多。在实际推理问题中，如何决定何时停止搜索？奖励函数是什么？成功的标准是什么？何时调用代码解释器等工具？如何计算这些 CPU 进程的开销？他们的研究文章并未透露太多。

5. Strawberry 很容易成为一个数据飞轮。如果答案正确，整个搜索过程就变成了一个包含正负奖励的微型训练数据集。

这反过来将提升未来版本 GPT 的推理核心，就像 AlphaGo 的价值网络随着 MCTS 生成的精细训练数据不断改进一样。

自 2022 年 Chinchilla 原始扩展定律以来，这可能是 LLM 研究中最重要的发现。关键的洞见在于两条曲线协同作用，而不是单一曲线。

人们通过外推训练扩展定律预测 LLM 能力的停滞，却没有预见到真正打破收益递减的是推理扩展。

现在，我们已经迎来了新的时代。

o1 是什么：这是首个在真正困难任务中表现出色的推理模型，而且它只会越来越好。（我个人对这个模型的潜力和发展轨迹感到非常兴奋！）

o1 还不是什么（至少现在还不是！）：一个在所有方面都比之前模型更强的“神奇模型”。如果你对今天的发布抱有这样的期待，可能会感到失望——但我们正在朝着这个目标努力！

o1 不是 GPT。你的提示词不会“直接奏效”。

你需要通过实验来发现它的强项，很可能会发现一些连我们都不知道的使用方法。去试试吧！

评论区Q：什么问题更适合 o1？ A：需要大量思考的问题。

o1 模型并不总是比 GPT-4o 更好。许多任务并不需要复杂的推理，有时等待 o1 的响应还不如直接使用 GPT-4o 的快速回复更划算。发布 o1-preview 的一个动机是观察哪些用例会变得流行，以及模型在哪些方面还需要改进。

OpenAI o1-preview 并不完美，它有时甚至会在井字棋这样的简单任务上出错。人们可能会在推特上晒出这些失败的案例。不过，在许多曾被用来证明“LLM 无法推理”的经典例子中，o1-preview 表现得好得多，o1 表现非常出色，我们也知道如何进一步扩展它的能力。

o1 的思考时间是几秒，但我们希望未来的版本能够思考几个小时、几天甚至几周。推理成本会更高，但你愿意为一种新型癌症药物支付什么代价？为突破性的电池技术呢？为Your personal AI productivity tool for a smarter brain.的证明呢？AI 能够超越简单的聊天机器人功能。

OpenAI o1 的优势：在客观基准和专家偏好等评估方面表现良好，超越现有基础模型。在 “阶跃变化” 评估中，其在推理、规划和协作方面的表现令人兴奋。能预测和规划多阶段任务，懂得何时及如何寻求帮助，并能对反馈进行反思和推理。
在专业服务领域的潜力：有望成为专业服务项目中的完全参与者，与专家无缝协作解决复杂问题。例如在起草 S-1 文件时，能通过与用户协作，提出详细问题、收集信息、制定大纲并确保合规，开启新的工作流程和用例。
Harvey 的努力方向：Harvey 团队致力于解决 OpenAI o1 在法律等专业服务领域的特定推理差距问题。通过与 OpenAI 合作，识别和整理相关数据集、生成新形式的人类数据等方式，确保模型以律师的思维方式解决问题。