北京时间凌晨一点左右,OpenAI o1 横空出世,即是之前宣传已久的草莓模型。
“突来的消息,那个模是你,这么多天你杳无音讯…”
特工们也第一时间被推送到了新模型,这下直接不困了。
不就是发了两个模型,十几个演示视频,43 页的论文嘛,起来肝就完了!
没睡的特工,出列!拉群开整!
o1 核心特点是能够在给出回复前用更多时间进行思考,模仿人类解决复杂问题的思考方式,并且思考越久,推理任务的表现就越好。
这一机制是 o1 对无限推理模型的迈进,同时也将 AI 在复杂推理任务上的能力提升到一个全新高度。
所以 OpenAI 将计数器重置为 1,并将这个系列命名为“OpenAI o1”。不同于之前的各个期货,直接上线,毫不拖拉。
简介与评估
简单的来说,OpenAI o1 系列模型,在复杂推理上的性能提升模式与传统 LLM 预训练式的性能提升不同,主要通过强化学习的方式,让模型不断完善思考过程,包括对不同策略进行尝试,认识到错误等。
而正是这一新训练模式,让 o1 模型拥有了同博士生般推理能力。同时根据报告显示,这一模式是可能存在 Scale up 的。下面具体介绍在这一新训练模式下,o1 展示出的令人惊讶的性能!
观察下图我们可以发现,o1 在各类机器学习基准测试中,远胜于 GPT-4o 模型(注:pass@1的意思是一次通过)
而在 GPQA Diamond* 上,o1 甚至成为第一个能击败人类专家的模型,虽不能直接说明 o1 能力超过人类专家,但足以表现出其“博士级”的推理思考能力。
GPQA Diamond :一个困难的智力基准,用于测试化学、物理和生物学方面的专业知识。
实线条显示一次通过的准确率,阴影区域显示 64 个样本的平均性能
文科向评估中 o1 相比于 4o 提升不算太大,而在逻辑推理方面,o1 远胜 4o
其中值得关注的是,为了展示 o1 的逻辑推理能力,OpenAI 选择了 AIME 作为测试。这属于美国数学竞赛中仅次于奥林匹克数学竞赛的项目,难度极大,非常灵活。
而 o1 在这一基准的表现,相比于 GPT-4o 仅拿下 12% ,在 1 样本提示的前提下,平均拿下 74%!而在 64 个样本的共识中,更是达到 83%,最为夸张的是,如果使用 1000 样本,则可以直接拿下 93%,足以进入美国前 500 名。
至于编程能力方面,OpenAI 以 o1 为基础,经过不断训练改进后的模型,最终能在模拟 cf 编程竞赛中得分 1807,超过 93% 的人类选手,而 GPT-4o 仅得到 808 分。
而在人类偏好评估方面,除复杂推理外,o1-preview 对比 4o 也是占据主要优势,不过在推理要求不高的场景下,人们还是更偏向于 4o 模型。
安全方面,总体相比于 4o 保持改进或相当(好像大家对安全都不那么感冒)。
CoT(思维链)
除去推理能力的提升,思维链的嵌入让 o1 相比于 4o 产生了能力的飞跃,o1 可以在尝试解决问题时,先进行一系列的思维链推导,而这其中包括了意识并纠正错误,问题拆解与规划,不同策略的尝试…(这不就是我们人类解决复杂问题的过程吗)
官方为了展示整个过程,给出了在 Code,Math,Science 等场景下的真实案例,并且展示了 CoT 的过程。
其中我们比较关注了数学方面的 case,因为对于以往的大语言模型来说,数学方面的回答总是存在大量论断,过程不严谨,在不调用外部计算器的情况下,计算也经常出现问题。
团队数学专业的小特工进行了测试(虽然算不上特别特别难的题,但对于修读大学数学专业的大一同学已是不小挑战的难度)。
原理
https://platform.openai.com/docs/guides/reasoning?reasoning-prompt-examples=coding-planning
特工们在挖掘 o1 时,发现在 OpenAI 的官网上有这样一张图,简单解释是如下:
-
用户输入问题后,o1 相比之前 GPT 系列模型多使用一个叫做“推理标记”的东西,你可以理解为它学会了像人一样选择在什么时候进行思考,并输出当前的想法,而这些“推理标记”中的“思考”的内容,并不会展示出来。这也是为什么有体验者提到,模型的等待时间比较久,正是因为思考的过程并不会显式地展示;
-
在新一轮的对话中(用户第二次输入),上一轮“思考”的内容全部被删除,开始全新的“思考”;
-
依此类推,当对话到达128k Tokens的上限时,模型会给出一个“删减版”答案,也避免了我们白白等待却碰到了上下文上限。
这个做法,不禁让特工想到当年它的名字还叫 Q*,而 Star 的来由正是 StaR 系列的论文。
其中这篇《Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking》的方法与 OpenAI 在 o1 中的做法有很多相似之处,感兴趣的小伙伴可以阅读这篇以及这个系列的文章。
(想在其它博主那里看到又干货又及时的整理可不容易哦,只此一家)
Life can only be understood backward, but it must be lived forward - Søren Kierkegaard
(Quiet-STaR 在论文的 Abstract 引用了这句话,当时觉得挺有意境的)
官方演示视频
OpenAI 直接怒发十几条演示视频,我和我的小伙伴都惊呆了。
并顺手将他们保存到了云文档:https://agentuniverse.feishu.cn/wiki/E7IIwVABoiKS7LkExDfc8tGInqh(部分机翻可能存在一些错误,时间匆忙敬请谅解)。
1. 数 strawberry 中 r 个数。
2. 制作在 HTML 上可以玩的贪吃蛇小游戏。
3. 将存在错误不通顺的韩语,正确翻译为了英文。
4. 破解逻辑谜题。
5. 做数学题。
总结(o1 很强,但不要尬吹)
在 OpenAI 的文章中,我们能注意到,无论从用户反馈还是实际测评,o1 更多是作为弥补先前大模型缺失的推理能力,而非在全方位碾压所有模型,可谓术业有专攻,选择自己合适的才是最好的。
OpenAI 只做了简单的 self-play,思维模式仍然难以琢磨,很难说 o1 是好的思维模式(引用自 MetaGPT 作者吴承霖)。
按照评分,o1-preview 的幻觉频率低于 GPT-4o,而 o1-mini 的幻觉频率低于 GPT-4o-mini。
但也有一些反馈表明 o1-preview 和o1-mini 似乎比 GPT-4o 和 GPT-4o-mini 更容易产生幻觉。全面理解幻觉现象还很远,特别是在我们的评估未涉及的领域(例如化学)。
According to these evaluations, o1-preview hallucinates less frequently than GPT-4o, and o1-mini hallucinates less frequently than GPT-4o-mini. However, we have received anecdotal feedback that o1-preview and o1-mini tend to hallucinate more than GPT-4o and GPT-4o-mini. More work is needed to understand hallucinations holistically, particularly in domains not covered by our evaluations (e.g., chemistry). Additionally, red teamers have noted that o1-preview is more convincing in certain domains than GPT-4o given that it generates more detailed answers. This potentially increases the risk of people trusting and relying more on hallucinated generation.
o1 作为 Agent 的底层 LLM,效果略逊于之前的模型。经过一定调整后能力可以与目前 Claude-3.5-Sonnet 持平,达到最高水准。
除了能力之外,特工们更多的对 OpenAI 做了些探索和思考,或许不一定对,简单聊聊的话就是👇
1️⃣ OpenAI 大道至简
为了提高模型性能,行业的通用路径是通过 Agnetic 的 Workflow,在基座模型基础上通过显式的符号逻辑完成 CoT.
但是 OpenAI 这一次直接把所有能力都隐式地训练到模型中,最大程度利用自回归模型的特点完成了端到端的 CoT.
某种程度上讲,OpenAI 通过模型层的巨大提升,将许多依赖复杂工程框架的工作简化成只需要一个 API.
2️⃣ OpenAI 在背后做了大量工作
虽然 OpenAI 最终没有对外交付工程框架,但是在 OpenAI 内部一定有非常完整的数据管线,大通量地形成高质量和低错误率的 CoT 数据。
最终实现的效果是,用一个复杂的工程框架训练出一个不依赖工程框架即可有好的效果的模型。
可预见的是,在 o1 之后,构建数据管线将成为每个模型和应用公司的必备工作。
3️⃣ 通用的提升领域能力的方法即将出现
自 AlphaGo 开始,用机器超越人的速度就在大幅加快。
但是不管是下围棋还是打游戏,强化学习都被认为是不可扩展的。
OpenAI 没有披露 o1 的训练细节,但最近,我们很快能够总结出泛化性强的模型能力提升之路。
可预见的是,只要给出明确的任务主题(不管是写代码、角色扮演还是做设计),都能快速完成 SOTA 的迭代。
4️⃣ o1 很强,但目前和大部分人无关
人们总是高估眼下的新进展,客观来讲,o1 的科研价值(展现和证明可能性)远大于当下的使用价值。
也许我们会更受益于借助 OpenAI o1 开发的新软件、研发的新药物、研发的新机械结构,而不是 OpenAI o1 本身。
也许当我们回顾人类的科技进化史的时候,会发现 o1 是一次巨大的拐点,因为它提供了更行之有效的做出好模型、让特定领域的智能可以无限扩展的最优范式。
BTW,有粗心的网友细心地发现,Contributor 名单中有个名为 Jie Tang 的大佬,便认为是清华智谱的唐杰老师。
虎躯一震的特工们也 Think step by step 了一下,并调用 Web Search 求证,发现只是撞名的乌龙而已。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。