【复现DeepSeek-R1之Open R1实战】系列3:基础知识介绍

【复现DeepSeek-R1之Open R1实战】系列博文链接:
【复现DeepSeek-R1之Open R1实战】系列1:跑通SFT(一步步操作,手把手教学)
【复现DeepSeek-R1之Open R1实战】系列2:没有卡也能训模型!Colab跑OpenR1(附源码)
【复现DeepSeek-R1之Open R1实战】系列3:基础知识介绍
【复现DeepSeek-R1之Open R1实战】系列4:跑通GRPO!
【复现DeepSeek-R1之Open R1实战】系列5:SFT源码逐行深度解析
【复现DeepSeek-R1之Open R1实战】系列6:GRPO源码结构解析
【复现DeepSeek-R1之Open R1实战】系列7:GRPO原理介绍、训练流程和源码深度解析
【复现DeepSeek-R1之Open R1实战】系列8:混合精度训练、DeepSpeed、vLLM和LightEval介绍
【复现DeepSeek-R1之Open R1实战】系列9:有趣的现象——GRPO训练过程Loss从0开始慢慢变大

1 前言

本文先介绍HuggingFace的Open-R1项目,这是一个旨在系统性地重构DeepSeek-R1的数据集及其训练流程、验证paper里的成果,从而推进开源推理模型发展。通过构建Open-R1,阐明强化学习如何提升推理能力的,同时向开源社区分享可复现的项目,为未来基于这些技术开发新模型奠定基础。

然后,再介绍一些大模型相关的概念和基础知识,如Tokenizer、SFT和GRPO等,便于大家深入去了解。

掌握了这些基础概念和知识之后,我们再深入源码,逐行逐模块去分析,从而达到学会就能用的目的。

最后,我们针对现状做了一些延伸思考。


1.1 Open R1项目简介

该项目设计简单,主要包含以下部分:

  • src/open_r1: 包含用于训练和评估模型以及生成合成数据的脚本:
    • grpo.py: 使用GRPO在给定数据集上训练模型。
    • sft.py: 在数据集上对模型进行简单的SFT(监督微调)。
    • evaluate.py: 在R1基准上评估模型的表现。
    • generate.py: 使用distilabel从模型生成合成数据。
  • Makefile: 包含利用上述脚本轻松运行R1流水线中每个步骤的命令。

1.2 主要步骤

研究者主要是使用DeepSeek-R1技术报告作为指南,该报告大致可以分为三个主要步骤,如下图所示:

  • 步骤1: 通过从DeepSeek-R1中提取高质量语料库来复制R1-Distill模型。

  • 步骤2: 复制DeepSeek用于创建R1-Zero的纯RL(强化学习)流水线。这可能涉及策划新的、大规模的数学、推理和代码数据集。

  • 步骤3: 展示我们可以通过多阶段训练从基础模型过渡到经过RL调优的模型。

流程


1.3 原理图

DeepSeek-R1的整体原理图如下所示:

原理图


2 基础知识

在分析源码之前,我们先了解一些基本概念和知识,以便于我们深入理解代码。

2.1 Vocabulary和Tokenizer

2.1.1 vocab.json, tokenizer.json, tokenizer_config.json

vocab.json, tokenizer.json, tokenizer_config.json 是自然语言处理(NLP)任务中,特别是使用预训练模型时常见的文件格式,它们与文本的分词(tokenization)过程密切相关。

  1. vocab.json
  • 作用:这个文件通常包含了词汇表的信息,即模型能够识别的所有单词或子词单元(subword units)。每个单词或子词对应一个唯一的ID。
  • 内容:它是一个字典格式的文件,键是词汇表中的单词或子词,值是它们对应的唯一整数标识符。
  1. tokenizer.json
  • 作用:此文件详细描述了如何将原始文本转换为模型输入的tokens序列。它不仅包含词汇表信息,还包括了特殊字符、添加的规则等。
  • 内容:该文件可能包含更复杂的结构化信息,用于定义具体的分词逻辑和算法细节。
  1. tokenizer_config.json
  • 作用:提供了配置参数,用于指导如何初始化或加载tokenizer对象。例如,最大序列长度、是否添加特殊的开始/结束标记等。
  • 内容:包括了一系列配置选项,帮助正确地设置和调整tokenizer的行为。

2.1.2 什么是tokenizer

Tokenizer是NLP中用来将文本分割成较小部分(如单词、子词或字符)的过程或工具。Tokenizer的主要目标是将人类可读的文本转换为机器可理解的形式——通常是整数序列。这一步骤对于准备数据以供机器学习模型(尤其是深度学习模型)训练和推理至关重要。

不同的模型和框架可能采用不同的方式来实现和存储tokenizer的相关信息,但上述提到的文件类型是较为常见的表示形式。通过这些文件,可以确保在不同环境中使用相同的分词策略,从而保证模型输入的一致性和稳定性。

2.1.3 在哪一步将tokenizer转成embedding

将tokenizer转换为embedding(嵌入)的过程通常发生在文本预处理阶段之后,具体来说是在你已经将文本通过tokenizer分割成tokens(标记)之后。以下是这一过程的详细步骤:

  • 文本分词:首先,原始文本通过tokenizer被分割成一个个token。这些token可以是单词、子词或字符,这取决于所使用的tokenizer类型和配置。

  • 转换为ID序列:接下来,每个token会被映射到一个唯一的整数ID。这个映射关系通常由vocab.json文件定义,其中包含了词汇表中所有token及其对应的ID。

  • 转换为Embedding:一旦你有了token的ID序列,下一步就是将这些ID转换为向量表示,即embedding。这一步通常是通过查找预先训练好的嵌入矩阵来完成的,该矩阵中的每一行对应于词汇表中的一个token的向量表示。在深度学习模型中,比如Transformer架构下的BERT等,这种转换通常是由模型的第一层——嵌入层(Embedding Layer)自动完成的。

    • 嵌入矩阵:是一个大小为[V, D]的矩阵,其中V是词汇表的大小,D是每个token的嵌入维度。
    • 查找操作:对于输入的每一个token ID,嵌入层都会在这个矩阵中找到相应的行作为该token的向量表示。

2.1.4 tokenizer的代码实现

# 假设你已经有了token IDs
token_ids = [123, 456, 789]

# 加载预训练模型和tokenizer
model = ... # 初始化你的模型
embeddings = model.get_input_embeddings()  # 获取嵌入层

# 将token IDs转换为embeddings
token_embeddings = embeddings(torch.tensor(token_ids))

这里,get_input_embeddings()方法返回了模型的嵌入层,然后通过传递token IDs给这个嵌入层,你可以得到每个token对应的embedding向量。


2.2 SFT和GRPO

SFT(Supervised Fine-Tuning,监督微调)GRPO(Group Relative Policy Optimization,组相对策略优化) 是两种在自然语言处理(NLP)领域中用于改进预训练语言模型性能的技术。

2.2.1 SFT

1. 核心概念

  • 目标:通过监督学习对预训练模型(如GPT、BERT等)进行二次训练,使其适应特定任务。
  • 数据依赖:需要高质量的标注数据(输入-输出配对),例如分类标签、翻译对照文本等。

2. 流程

  • 预训练:模型在大规模无监督数据(如网页文本)上学习通用语言模式。

  • 微调:在特定任务的标注数据上调整模型参数(如对话生成、文本分类),优化任务相关目标函数。

3. 特点

  • 优点
    • 高效迁移:利用预训练模型的通用能力,减少从头训练的资源消耗。
    • 可控性高:标注数据直接指导模型学习目标任务的分布。
  • 缺点
    • 标注成本高:需大量人工标注数据。
    • 泛化局限:过度依赖标注数据,可能无法处理未见过的任务形式。

4. 典型应用

  • 文本生成:定制化对话模型(如客服机器人)。
  • 分类任务:情感分析、垃圾邮件检测。
  • 翻译模型:基于双语对照数据的微调。

2.2.2 GRPO

关于强化学习更详细的介绍,可以参考这篇博文:【DeepSeek-R1背后的技术】系列三:强化学习(Reinforcement Learning, RL)

1. 核心概念

  • 目标:通过多策略组对比优化智能体策略,属于强化学习方法。
  • 核心思想:将智能体分为多个组,每组采用不同策略,通过组间表现的相对评估驱动策略改进。

2. 流程

  • 初始化策略组:随机生成多组策略(如不同参数初始化)。
  • 环境交互:各组在环境中运行,收集轨迹数据与奖励信号。
  • 相对评估:比较各组平均表现,淘汰低效策略组。
  • 策略更新:保留高效组,并通过交叉或梯度更新生成新策略组。
  • 迭代优化:重复直至策略收敛。

3. 特点

  • 优点
    • 多样性探索:多组策略并行,避免陷入局部最优。
    • 鲁棒性:相对评估减少单一策略波动的影响。
  • 缺点
    • 计算开销大:需并行训练多组策略,资源消耗高。
    • 实现复杂:组间比较机制和策略更新规则设计难度较高。

4. 典型应用

  • 复杂决策场景:游戏AI(如Dota、星际争霸的多人协作)。
  • 机器人控制:多关节机械臂的路径规划。
  • 自动驾驶:动态交通环境下的多策略决策。

2.2.3 关键对比

维度SFTGRPO
学习范式监督学习(有明确标注)强化学习(基于环境反馈)
数据需求高质量标注数据环境交互产生的奖励信号
计算成本较低(单任务微调)较高(多组策略并行训练)
适用场景静态任务(如分类、生成)动态决策任务(如控制、博弈)
核心挑战标注数据不足导致过拟合策略多样性维护与计算效率平衡

2.2.4 如何选择

  • 选择SFT:任务目标明确、标注数据充足,且需快速适配预训练模型(如构建垂直领域聊天机器人)。
  • 选择GRPO:任务环境复杂、需动态探索最优策略,且具备并行计算资源(如训练游戏AI的多人协作策略)。

两者可结合使用(如先用SFT初始化策略,再用GRPO优化),以平衡监督学习的高效性与强化学习的探索能力。


2.3 数据集介绍

Bespoke-Stratos-17k 是一个专注于推理任务的高质量合成数据集,旨在通过大语言模型(如 DeepSeek-R1)生成的推理轨迹,提升小模型的数学、编程和逻辑推理能力。

2.3.1 数据构成与来源

Bespoke-Stratos-17k 包含 17,000 条样本,涵盖以下三类问题:

  • 编程问题(5,000 条):来自 APPs 和 TACO 等编程数据集,涉及代码生成与调试。
  • 数学问题(10,000 条):选自 NuminaMATH 数据集的 AIME、MATH 和 Olympiads 子集,覆盖代数、几何、组合数学等高难度题型。
  • 科学与谜题(1,000 条):源自 STILL-2 数据集,包含科学推理和逻辑谜题。

所有问题均通过 DeepSeek-R1 生成详细的推理轨迹(包括逐步分析和解决方案),并经过严格过滤确保质量。

2.3.2 生成与优化过程

  • 高效生成:利用 Bespoke Curator 项目管理生成流程,结合 DeepSeek-R1 仅用 1.5 小时 完成生成,成本控制在 800 美元 以内。
  • 拒绝采样与验证:引入 Ray 集群 加速代码验证,并通过 gpt-4o-mini 过滤错误答案,将数学解题的正确率从 25% 提升至 73%。
  • 格式优化:DeepSeek-R1 生成的推理轨迹无需额外格式化,简化了数据处理流程。

2.3.3 应用场景与效果

该数据集主要用于 知识蒸馏,将大模型的推理能力迁移至小模型(如 Qwen、Llama 等)。例如,通过监督微调(SFT)训练的小模型,在数学和编程任务中表现接近 DeepSeek-Distill-Qwen-7B 等蒸馏模型。

其特点是 多领域覆盖高质量推理轨迹,能够帮助模型建立系统化的逻辑分析能力,而非仅依赖最终答案。

2.3.4 与其他数据集的对比

Bespoke-Stratos-17k 是开源社区中较早专注于推理轨迹的数据集之一。与后续发布的 OpenR1-Math-220k(包含 22 万条数学推理数据)相比,它的优势在于 跨领域多样性(数学、编程、谜题)和 轻量化生成流程,但规模较小。

2.3.5 获取与使用

数据集可通过 Hugging Face 平台访问(链接),格式为 Parquet 文件,包含问题、推理步骤和最终答案的标准化结构,适合直接用于模型微调和评估。


2.4 Base模型介绍

Qwen2.5-1.5B-Instruct 是阿里云开发的 Qwen2.5 系列语言模型中的一个版本,专为指令理解和执行进行了优化。以下是该模型的一些关键特性、架构细节以及其应用场景。

2.4.1 关键特性

  • 参数规模: Qwen2.5-1.5B-Instruct 模型包含约 15亿(1.5B)个参数,这使得它在保持较高性能的同时,也能在资源受限的环境中高效运行。

  • 支持的语言: 支持超过 29 种语言,包括中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文、韩文等,这使得它非常适合多语言任务的应用场景。

  • 上下文长度: 能够处理高达 32,768 tokens 的上下文长度,并能生成最多 8,192 tokens 的内容,这对于长文档的理解和生成任务非常有用。

  • 增强的功能:

    • 指令执行能力: 在理解并执行复杂指令方面有了显著提升,能够更好地处理长文本生成任务。
    • 结构化数据处理: 提升了对结构化数据(如表格、JSON)的理解和生成能力。
    • 角色扮演和聊天机器人条件设置: 对各种系统提示具有更高的适应性,增强了角色扮演实现和聊天机器人的条件设置功能。

2.4.2 架构与技术细节

  • 类型: 因果语言模型(Causal Language Model),这意味着它根据前面的词元预测下一个词元。
  • 架构: 基于 Transformer 结构,采用了 RoPE(旋转位置嵌入)、SwiGLU(门控线性单元)、RMSNorm(均方根归一化)、注意力机制中的 QKV 偏置以及共享词嵌入等技术。
  • 层数与头数: 包含 28 层,每个查询使用 12 个注意力头,而键值对则使用 2 个注意力头(GQA)。

2.4.3 应用场景

  • 对话系统: 由于其强大的指令理解和执行能力,Qwen2.5-1.5B-Instruct 非常适合用于构建智能对话系统或聊天机器人。
  • 文本生成: 可以用于创意写作、自动摘要、翻译等多种文本生成任务。
  • 编程辅助: 它还可以帮助开发者进行代码编写、调试和问题解答,特别是在 CodeQwen1.5 发布后,吸引了大量依赖该模型完成编程任务的用户。
  • 教育和技术支持: 在教育领域,它可以作为辅导工具,帮助学生解决数学、科学等问题;在技术支持方面,可以提供自动化的问题解决方案。

2.5 LoRA

LoRA(Low-Rank Adaptation) 是一种用于微调大规模预训练模型的高效方法,特别适用于资源受限的环境。LoRA 的核心思想是通过低秩矩阵分解来减少需要调整的参数数量,从而在保持模型性能的同时显著降低计算和存储成本。以下是对 LoRA 的详细介绍:

2.5.1 核心概念

  1. 低秩矩阵分解
    LoRA 基于一个假设:预训练模型中的权重更新通常是低秩的。这意味着,与全量微调相比,只需要少量的低秩矩阵就能有效地捕捉到微调所需的参数变化。

  2. 增量更新
    LoRA 不直接修改预训练模型的权重,而是为每个需要微调的层引入一对可训练的低秩矩阵 ( A ) 和 ( B ),并通过它们的乘积 ( AB ) 来生成权重更新。具体来说,原始权重 ( W_0 ) 被更新为 ( W = W_0 + BA ),其中 ( A ) 和 ( B ) 是低秩矩阵。

2.5.2 主要优势

  1. 节省内存和计算资源

    • 由于只需要存储和更新低秩矩阵,而不是整个模型的权重,因此显著减少了内存占用。
    • 计算复杂度也大大降低,使得在资源有限的设备上运行大型模型成为可能。
  2. 高效的微调过程

    • LoRA 可以快速适应新任务或领域,而不需要从头开始重新训练整个模型。
    • 由于只需要训练少量参数,收敛速度通常更快。
  3. 保留预训练知识

    • 通过仅添加增量更新而不改变原始权重,LoRA 有助于保留模型的预训练知识,避免过度拟合。

2.5.3 使用场景

LoRA 特别适用于以下几种情况:

  • 多任务学习:当需要在多个相关任务之间共享一个基础模型时,LoRA 可以帮助快速适应每个任务的具体需求。
  • 领域适应:在特定领域内微调通用模型时,LoRA 提供了一种轻量级的方法来实现高效适应。
  • 资源受限的环境:在边缘设备、移动设备或其他计算资源有限的环境中,LoRA 可以显著降低模型的运行成本。

2.5.4 实现细节

在实际应用中,使用 LoRA 通常涉及以下几个步骤:

  1. 定义目标模块

    • 指定哪些层或模块需要进行 LoRA 微调。例如,在 Transformer 模型中,通常会针对注意力机制的权重进行微调。
  2. 初始化低秩矩阵

    • 为每个目标模块初始化一对低秩矩阵 ( A ) 和 ( B )。这些矩阵的大小由秩 ( r ) 决定,通常是一个较小的值(如 8 或 16)。
  3. 训练过程

    • 在训练过程中,只更新 ( A ) 和 ( B ),而保持原始模型权重不变。
    • 使用适当的优化器(如 Adam)和学习率调度策略来优化这些矩阵。
  4. 推理阶段

    • 在推理阶段,将 ( BA ) 加到原始权重上,形成新的权重矩阵,并使用这个更新后的模型进行预测。

2.5.5 示例代码片段

以下是使用 Hugging Face 的 transformers 库和 peft(Parameter-Efficient Fine-Tuning)库进行 LoRA 微调的一个简化示例:

from transformers import AutoModelForSequenceClassification, Trainer, TrainingArguments
from peft import LoraConfig, get_peft_model

# 定义LoRA配置
lora_config = LoraConfig(
    r=16,  # 秩
    lora_alpha=32,  # 缩放因子
    target_modules=["query", "value"],  # 目标模块
    lora_dropout=0.05  # dropout率
)

# 加载预训练模型
model = AutoModelForSequenceClassification.from_pretrained('bert-base-uncased')

# 应用LoRA
model = get_peft_model(model, lora_config)

# 设置训练参数
training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    warmup_steps=500,
    weight_decay=0.01,
    logging_dir='./logs',
)

# 创建Trainer并开始训练
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
)
trainer.train()

3 源码分析

篇幅有限,源码分析更新到下一篇博文中: 【复现DeepSeek-R1之Open R1实战】系列5:SFT和GRPO源码逐行深度解析(中)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值