家人们,o1大模型,最近着实是有点火啊。
就在今天,昆仑万维的Skywork o1首发中文逻辑推理能力,并开启了邀测。
那一波实测,这不就得安排一下么。
类似o1模型最大的特点就是其强悍的推理能力,因此,我们直接上一道AIME数学竞赛题,看看够不够“开门”。
(AIME:美国数学邀请赛,是介于AMC10、AMC12及美国数学奥林匹克竞赛之间的一个数学竞赛。)
题目翻译过来是这样的:
每天早晨,Aya会进行一段长度为9公里的散步,然后在一家咖啡店停留。当她以每小时s公里的恒定速度行走时,整个散步加上在咖啡店停留的时间一共需要4小时,其中包含在咖啡店停留的t分钟。当她以s+2公里每小时的速度行走时,整个过程(包括在咖啡店停留的时间)需要2小时24分钟。
假设Aya以s+1/2公里每小时的速度行走,求她在这种情况下(包括在咖啡店停留的时间)的总时间(以分钟为单位)。
上下滑动查看所有内容:
从Skywork o1整体的回答来看,它先是将问题分解为不同场景,通过建立方程组描述步行速度、时间和距离的关系。
随后利用代数方法求解,确保了表达式简化和单位换算的正确性。
而比较重要的一点,是Skywork o1可以代入结果验证计算过程的自洽性,并明确得出总时间。
最终,它所给出的答案**“204”**,与今年AIME这道题的标准答案一致。
接下来,我们再拿今年的高考数学题做一番测试。
AI请听题:
已知函数 f ( x ) = a ( x − 1 ) − l n x + 1 f(x) = a(x - 1) - \\ln x + 1 f(x)=a(x−1)−lnx+1.
(1)求f(x)的单调区间;
(2)当α小于等于2时,证明:当x大于1时, f ( x ) < e x − 1 f(x) < e^{x-1} f(x)<ex−1 恒成立。
对于这个问题,Skywork o1给出的思考和答案如下(上下滑动查看所有内容):
AI整体的思路和刚才一样,都是属于分步而治之,主打的就是一个step by step。
期间哪怕是遇到“陷阱”,Skywork o1也会及时发现并提醒自己,整个过程宛如把人类思考的过程复刻并呈现了出来一般。
最终给出的答案也是与标准答案一致。
需要注意的是,Skywork o1其实是一个系列,更具体而言,包括三个细分模型:
-
Skywork o1 Open:基于Llama 3.1的8B开源模型,解锁了许多轻量级模型无法解决的复杂数学任务。
-
Skywork o1 Lite:具备完整的思考能力,具有更好的中文支持和更快的推理和思考速度。
-
Skywork o1 Preview:本次完整版的推理模型,搭配自研的线上推理算法,使推理过程更完善、高质量。
不仅如此,Skywork o1 Open也参与到了类o1模型Benchmark的比较,能力上可谓是有了大幅的提高。
将Llama-3.1-8B的性能拉到同生态位SOTA(超越Qwen-2.5-7B-Instruct)。
同时,8B的Skywork o1 Open也解锁了很多较大量级模型,如GPT 4o,无法完成的数学推理任务(如24点计算)。
这也为推理模型在轻量级设备上部署提供了可能性。
△在MATH数据集上,Q*(论文地址:https://arxiv.org/abs/2406.14283)帮助Llama-3.1-7B提升并超越了同生态位的SOTA Qwen2.5-7B-instruct。
同时,昆仑万维也将开源两个的推理任务的Process Reward Model(PRM):Skywork o1 Open-PRM-1.5B 和Skywork o1 Open-PRM-7B,相比此前开源的Skywork-Reward-Model仅对整个模型回答进行打分,Skywork o1 Open-PRM能给模型回答中的每个步骤进行打分。
对比开源社区现有的PRM,Skywork o1 Open-PRM-1.5B能达到开源社区8B的模型效果,例如RLHFlow的Llama3.1-8B-PRM-Deepseek-Data,OpenR的Math-psa-7B,Skywork o1 Open-PRM-7B能同时在大部分benchamrk上接近/超过10倍量级的Qwen2.5-Math-RM-72B。
Skywork o1 Open-PRM也是第一款适配代码类任务的开源PRM。下面表格为以Skywork-o1-Open-8B作为基础模型,使用不同PRM在数学和代码评测集上的评估结果。
详细技术报告也将在不久后发布。目前模型和相关介绍已在Huggingface开源 (https://tinyurl.com/skywork-o1)。
那么除了纯数学题之外,Skywork o1在其它推理任务上的表现又会如何?
接下来,我们继续用更多维度的测试来考验一番。
AI自我思考、规划和反思
9.9和9.11哪个大?
首先,我们就用曾经难倒一众AI大模型的经典问题**“9.9和9.11哪个大”**来做一下测试。
虽然现在几乎所有大模型都能给出正确答案,但在这个测试中,我们将更关注AI思考的过程。
从过程来看,Skywork o1依然采用分而治之的策略。
先比较整数位,判定二者的整数位相同;再判断小数位,将其转换为相同的格式,即0.90和0.11之间的比较,判定9.9大于9.11。
最后,Skywork o1还是把过程再次验证了一遍,认定结果是正确的。
从它的思路来看,和人类比较这两个数字的逻辑是一致的。
脑筋急转弯
接下来,我们再来一道脑筋急转弯:
一个箱子里装了2个苹果,拿走了两个,但箱子里还是有2个苹果。这可能吗?
对于这样的脑筋急转弯,很多人思考的过程,会先看下是否符合常理;若是属于“不按套路出牌”的那种,就会再找找题面有没有trick了。
那么到了AI这边,它又会如何思考?
Skywork o1先审视了一下题目,初步判定不符合常理,应当就开始抓细节了,脑洞大开地想了好几种可能。
例如又有人放了2个苹果进去、画上去的苹果、光学错觉、箱子里有镜子等等……
但上述的想法都被自己给否了,理由是太牵强。
最后,Skywork o1认定,这个题目的trick就在**“拿走”**这个词儿身上,给出的解释也是正解:
把苹果从箱子里拿出来,但没有带离箱子,仍在箱子的范围内。
加密问题
测试大模型的逻辑推理,加密问题可以说是一种非常适合的类型。
因为加密问题往往需要从有限的已知条件推导出未知信息,这需要模型具备强大的逻辑推理能力,能够在多个条件之间找到关联并推导出结论。
那么,话不多说,AI请听题:
已知 ukwmfvhxyondhxjz rhfvpfjzxn ukjzwmkajzhxyo -> practice makes perfect 请基于这个例子找到密文 ukqgfvsi gwjzkatjwmjz dttjzp hxtjiyjz 对应的原文。
Skywork o1从已知的加密规则和密文-明文对中归纳出字符映射关系,并基于映射规则对新密文进行解码。
在这个过程中,模型逻辑清晰,分步拆解问题,逐步验证假设,并在映射不完整的情况下,通过推测加密模式进一步完善解码方案。
尤其是它对加密规则的归纳能力,不仅识别了每个字母被映射为两个字符的规律,还通过字符位置和字母表的偏移发现了加密过程的具体算法(奇偶位置的偏移逻辑)。
但也并非完美
虽然Skywork o1在目前种种推理任务中表现还算不错,但当我们把任务难度降到极低的时候,也发现了一个问题——有点啰嗦了。
例如问它**“1+1等于几”**:
Emmmm……繁琐,着实有点繁琐了。
但同时,模型考虑到了这道问题是否是在问不同进制情况下的答案,也体现了模型多样性的思考能力。
不过在与昆仑万维团队交流过程中我们得知,对于这样简单的问题,团队后续也会进一步对Skywork o1的解答做优化。
在看完效果之后,接下来的一个问题便是:
怎么做到的?
整体来看,Skywork o1之所以能有如此的思考、规划及反思能力,主要得益于一个三阶段的自研技术方案。
首先第一阶段,是一个推理反思能力训练的过程。
Skywork o1通过自研的多智能体体系构造出高质量的分步思考、反思和验证数据。
这些多样化的长思考数据用于对基础模型进行进一步的预训练和监督微调,从而提升了模型在复杂任务中的推理能力。
其次第二阶段,是推理能力强化学习。
Skywork o1团队研发了Skywork o1 Process Reward Model(PRM),适用于分步推理的强化学习过程。
该模型能够有效捕捉到复杂推理任务中每一步对最终答案的影响;通过结合自研的分步推理强化算法,模型的推理和思考能力得到了显著增强。
PRM的核心在于其对推理过程的精细化奖励机制。
传统的强化学习模型往往只关注最终结果的正确性,而PRM则在每一个推理步骤中引入了奖励评估,从而确保模型能够在每一步中不断优化其推理路径。
PRM能够对模型的每一个思考过程进行评分,从而帮助模型纠正错误思维链,提升整体推理质量。
Skywork o1团队还在PRM中加入了多任务训练数据,使其不仅能够在单一领域表现出色,同时具备在多样化任务场景中灵活应用的能力。
通过这种方式,Skywork o1能够有效应对各类复杂的推理挑战。
最后,则是推理规划(planning)。
这也是昆仑万维首次将Q*算法应用并公开,用于线上推理。
Q*算法与模型的在线思考能力结合,能够寻找最佳推理路径,从而显著提高了模型的在线推理能力。
值得一提的是,这也是全球首次实现Q*算法落地,使得Skywork o1的推理能力进一步领先于其他同类模型。
为什么类o1模型重要?
早在Sam Altman发布o1模型之际,他便对此问题做了一些点评:
o1标志着一种新范式的开始:能够进行通用复杂推理的AI。
这一趋势也离不开行业发展的大背景,即市场对于具有强大推理能力的模型需求日益增加。
而类o1模型模型的推出,正好满足了这一需求,尤其是在需要复杂逻辑推理的应用场景中,如科学研究、编程、数据分析等领域。
因为它们对性能提升方式不同于传统的大规模预训练方式(通过增加参数量和数据量),是通过增加推理时的算力和时间投入,实现了性能的显著提升,这为模型的发展带来了新的Scaling Law。
并且通过内置思维链(CoT)逐步解决问题的方式,一定程度上模拟了人类慢思考过程;这种方式使得模型在推理时能够进行自我纠正,当模型检测到偏离正确的推理路径时,它可以回溯并尝试其他方案。
一言蔽之,是符合市场和行业硬需求。
而纵观昆仑万维在大模型时代这两年的表现,毫不夸张的说,每一次的技术新潮来临之际,国产选手中定然有它的身影出现,而且是属于早一批的那种。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。