近期,大型推理模型(LRMs:Large Reasoning Models)OpenAI-o3、DeepSeek-R1、kimi 1.5、Step-1o应接不暇,快速、系统掌握指南:
-
一个全面的蓝图:构建、分析和实验LRMs;
-
蓝图将LRMs组件组织成模块化框架:推理结构(链式、树形、图状和嵌套形式)、推理策略(MCTS、束搜索)、强化学习(策略、价值模型等)以及监督方案(结果或过程监督);
-
开源框架x1,模块化实现,用于快速LRMs原型制作和实验,支持训练、推理和合成数据生成。
大型推理模型概念以及如何实现?
LRMs设计和核心概念速览。高级概述(左上)、中级概述(右上),详细推理和训练流程(下)
LRMs的演变、架构
LRMs的发展历史
LRMs的演变历程
LRMs的出现是多种技术发展的结果,主要包括以下三个方面:
-
大型语言模型(LLMs)的进步:LLMs如GPT-4o等,通过在海量文本数据上进行训练,能够理解和生成人类语言。然而,它们的推理能力主要基于快速、自动的系统1思维,缺乏深度和结构化的推理能力。
-
强化学习(RL)的发展:强化学习模型如AlphaZero等,通过试错学习最优策略,展示了在复杂决策问题中的潜力。但这些模型缺乏对现实世界知识的编码能力。
-
高性能计算(HPC)的推动:高性能计算资源的发展,特别是GPU、TPUs和AI加速器的并行处理能力,为LLMs和RL模型的训练提供了支持。
LRMs的基础架构
LRMs结合了LLMs、RL和HPC的优势,形成了能够进行系统2思维(System 2 Thinking)的AI模型。这些模型不仅具备LLMs的知识基础,还能通过RL进行结构化的探索和优化。RLMs的主要基础架构包括:
-
推理结构(Reasoning Structure):RLMs使用树状或图状结构来组织推理步骤,这些结构可以通过蒙特卡洛树搜索(MCTS)等策略进行扩展和优化。
-
推理策略(Reasoning Strategy):RLMs采用MCTS等策略来平衡探索和利用,通过模拟多种推理路径来选择最有希望的解决方案。
-
操作符(Operators):RLMs中的一系列操作符(如生成、评估、更新等)用于在推理结构中添加、修改或评估推理步骤。
-
模型组件(Models):RLMs通常包含策略模型(Policy Model)和价值模型(Value Model),分别用于生成新的推理步骤和评估推理路径的质量。
语言模型的层级结构(右侧)和LRMs的三大支柱(左侧)
构建LRMs的全面蓝图
提出了一个全面的蓝图,用于构建和分析推理语言模型(RLMs)。该蓝图包括推理方案、操作符、模型和流程四大类组件,涵盖了从推理结构的设计到模型的训练和数据生成的全过程。通过这个模块化的框架,研究人员和实践者可以灵活地设计、训练和部署适合特定应用的RLMs。
蓝图概述与主要组件
-
推理方案(Reasoning Scheme):定义推理步骤的结构(如链、树、图)以及推理策略(如蒙特卡洛树搜索,MCTS)。
-
操作符(Operators):用于在推理结构上执行操作,如生成、评估、更新等。
-
模型(Models):实现操作符的神经网络模型,如策略模型(Policy Model)和价值模型(Value Model)。
-
流程(Pipelines):定义推理、训练和数据生成的具体操作流程。
推理方案
推理方案是蓝图的核心部分,它详细定义了推理步骤如何组织成连贯的结构,并指导推理过程的演变。
-
推理步骤(Reasoning Step):推理结构的基本单元,可以是单个token或整个句子,具体取决于设计选择。
-
推理结构(Reasoning Structure):推理步骤的连接方式,常见的有链(线性序列)、树(层次化分支)和图(任意连接)。
-
推理策略(Reasoning Strategy):定义推理结构如何演变,例如MCTS通过模拟多条推理路径并选择最有希望的路径。
-
解码策略(Decoding Strategy):与推理策略不同,解码策略关注于单个token的生成,如贪婪搜索或核采样。
操作符
操作符用于在推理结构上执行各种操作,以推动推理过程的进展。蓝图提供了以下几类操作符:
- 结构操作符(Structure Operators):
-
生成(Generate):在推理结构中添加新的推理步骤。
-
细化(Refine):优化现有的推理步骤,例如纠正错误或提高清晰度。
-
聚合(Aggregate):将多个推理步骤合并为一个步骤。
-
剪枝(Prune):移除不相关或次优的推理步骤。
-
重构(Restructure):对推理结构进行任意转换,例如将树结构转换为链结构。
- 遍历操作符(Traversal Operators):
-
选择(Select):选择下一个要扩展的推理步骤。
-
回溯(Backtrack):返回到之前的推理步骤并尝试其他路径。
-
更新操作符(Update Operators):更新推理结构中特定部分的值,例如MCTS中的反向传播。
-
评估操作符(Evaluate Operators):对推理结构的一部分进行评估,而不修改结构本身。例如,评估一个推理路径的预期奖励。
模型
模型是实现操作符的具体神经网络,蓝图中讨论了以下模型及其训练范式:
-
策略模型(Policy Model):用于生成新的推理步骤。
-
价值模型(Value Model):用于评估推理路径的质量。
-
训练范式(Training Paradigm):定义了如何训练这些模型,例如监督微调(SFT)、拒绝采样(Rejection Sampling)或强化学习方法(如PPO)。
-
训练数据范围(Training Data Scope):讨论了输出基础监督(OBS)和过程基础监督(PBS)两种训练数据的范围。PBS提供了更丰富的训练信号,但需要更复杂的标注数据。
流程
流程是操作符和模型之间的交互规范,用于实现特定目标,如推理、训练或数据生成。蓝图中详细描述了以下流程:
-
推理流程(Inference Pipeline):使用推理方案和模型来处理用户请求。
-
训练流程(Training Pipelines):用于训练策略模型和价值模型,包括SFT和自学习。
-
数据生成流程(Data Generation Pipeline):独立于用户请求,生成用于训练的数据。
x1框架的设计与实现
x1框架是一个模块化、可扩展的框架,用于开发和实验推理语言模型(RLMs)。x1框架结合了树状推理结构和蒙特卡洛树搜索(MCTS),并实现了一系列操作符来指导推理过程。框架中的策略模型和价值模型通过两阶段训练进行优化,第一阶段进行监督微调,第二阶段通过强化学习进一步调整。此外,x1框架通过解耦模型、支持批处理和量化等策略,提升了可扩展性和效率。
LLM推理基准的分类体系
Reasoning Language Models: A Blueprint``https://arxiv.org/pdf/2501.11223``https://github.com/spcl/x1
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。