蒸馏 DeepSeek - R1 的详细步骤与优化策略

最新推荐文章于 2025-04-23 10:02:36 发布

王国平

最新推荐文章于 2025-04-23 10:02:36 发布

阅读量1.1k

点赞数 28

分类专栏： AI提示工程必知必会文章标签：深度学习人工智能 pytorch DeepSeek 机器学习 python

本文链接：https://blog.csdn.net/shanghaiwren/article/details/147349313

版权

AI提示工程必知必会专栏收录该内容

17 篇文章

订阅专栏

模型蒸馏概述

模型蒸馏是一种机器学习技术，通过将知识从大型复杂模型（教师模型）转移到较小、更高效的模型（学生模型），在显著降低计算成本和内存占用的同时，保留教师模型的大部分性能。蒸馏的方法主要有以下几种：

数据蒸馏：教师模型生成合成数据或伪标签，用于训练学生模型，可应用于多种任务，包括开放式推理任务。

Logits 蒸馏：学生模型训练匹配教师模型的 Logits，即应用 softmax 函数前的原始输出分数，能保留更多教师模型的置信水平和决策过程信息。

特征蒸馏：将教师模型中间层的知识传递给学生模型，通过对齐隐表征，让学生学习更丰富、抽象的特征。

蒸馏 DeepSeek - R1 的准备工作

安装库：

- 首先需要安装相关的 Python 库，包括torch、transformers、datasets、accelerate、bitsandbytes、flash - attn等。可以使用以下命令安装：pip install -q torch transformers datasets accelerate bitsandbytes flash - attn -- no - build - isolation。

生成和格式化数据集：

- 可以通过在环境中使用ollama或其他部署框架部署DeepSeek - R1来生成自定义的领域相关数据集。若使用Magpie - Reasoning - V2数据集，它包含由DeepSeek - R1生成的 25 万条链式思考（CoT）推理样本，涵盖数学推理、编码和一般问题解决等任务。加载数据集后进行格式化，并将其构建为目标模型（如 Phi - 3）的聊天模板格式，以确保模型学习到正确的会话模式。同时进行训练 - 测试集划分，例如按 90% - 10% 的比例划分。

加载模型和 Tokenizer：

- 加载预训练的学生模型和对应的分词器。例如，如果要蒸馏到微软的 Phi - 3 - Mini 模型，可以使用AutoTokenizer和AutoModelForCausalLM从transformers库中加载模型和分词器。添加自定义标记以适应模型的特定需求，并将填充标记设置为结束标记。使用flash attention加载模型以提高效率，并根据需要调整模型的词向量维度以适应自定义标记。

配置 LoRA 进行高效微调

LoRA 通过冻结基本模型和只训练小的适配器层来减少内存使用。在配置 LoRA 时，需要定义一些参数，如per_device_train_batch_size（每个设备的训练批次大小）、per_device_eval_batch_size（每个设备的评估批次大小）、gradient_accumulation_steps（梯度累积步数）、eval_strategy（评估策略）、save_strategy（保存策略）、logging_strategy（日志记录策略）、logging_steps（日志记录步数）、learning_rate（学习率）、fp16（是否使用半精度浮点数）、optim（优化器）、max_grad_norm（最大梯度范数）、warmup_ratio（热身比例）、lr_scheduler_type（学习率调度器类型）等。

训练模型

使用SFTTrainer来简化指令遵循模型的监督微调过程。定义一个DataCollatorForLanguageModeling作为数据整理器，用于对示例进行批处理。将配置好的模型、训练参数、训练数据集、评估数据集、数据整理器和peft_config（用于支持基于 LoRA 的训练）传递给SFTTrainer，然后调用train方法开始训练模型。训练完成后，保存模型和分词器。