DeepSeek各版本笔记总结_deepseek-v2 16b版本-CSDN博客

本文链接：https://blog.csdn.net/qq_44017116/article/details/146062253

2024.1 DeepSeek LLM Scaling Open-Source Language Models with Longtermism

背景

像ChatGPT、Claude、Bard等产品，都是以广泛的计算资源和大量的注释成本开发的。Llama 系列模型脱颖而出，它整合了一系列工作，以创建一个高效稳定的架构，构建从 7B 到 70B 参数的高性能模型。然而，开源社区往往忽视了对LLM缩放定律的研究探索。

随着计算预算C、模型规模N和数据规模D的增加，可以预见地提高模型性能。C可以近似为=6ND

研究动机、目的

这些研究通常缺乏对超参数设置的完整描述，因此无法确定不同计算预算下的模型是否达到最佳性能。

研究BatchSize和Learning Rate的缩放规律。

成果

发现了缩放规律随模型大小的趋势
对数据和模型规模的缩放规律进行了全面研究，成功地揭示了最佳模型/数据扩展分配策略。
提出了一种更精确的模型规模表示方法：非嵌入 FLOPs/token ，记作 M，替换了之前使用的模型参数N，表示为C=MD。实验结果准确预测了 DeepSeek LLM 7B 和 67B 模型的预期性能。
来自不同数据集的缩放定律显示出显着差异
大多数超参数的最优值在不同的计算预算下是稳定的。即这些超参数对计算预算的变化不敏感，因此可以直接沿用之前的经验值，而无需重新调整。而Batch Size 和 Learning Rate 是影响模型性能的两个最关键超参数。
在各种基准测试中都超过了 LLaMA-2 70B，尤其是在代码、数学和推理领域。
DeepSeek 67B 聊天模型在中英文开放式评估中都优于 GPT-3.5
DeepSeek 67B Chat在实践中可以提供无害的响应（安全评估）

核心内容

数据处理
去重复、过滤和重新混合。去重复和重新混合阶段通过对唯一实例进行采样来确保数据的多样化表示。过滤阶段提高了信息的密度，从而实现了更高效和有效的模型训练。
- 去重复
  在单个数据子集内部的重复数据有限，扩大了去重复的范围，发现跨多个数据子集时有更多的重复内容。
- 过滤
  通过制定鲁棒的标准，结合语言学和语义评估，从个体和全局两个视角全面评估文档质量。
- 重新混合
  调整了解决数据不平衡的方法，专注于增加代表性不足的域的存在
分词器
- 使用Byte-level Byte-Pair Encoding (BBPE) 。在分词前使用预分词，防止不同字符类别的符号被错误地合并。并选择将数字拆分为单个数字（digits），而不是将其作为一个整体。
- 词汇表在一个多语言语料库上训练的，语料库大小约为 24 GB。在常规词汇表的基础上添加了15个特殊token，（如 [PAD], [CLS], [SEP] 等），最终词汇表大小为 100,015 。
- 为了确保训练期间的计算效率并为将来可能需要的任何其他特殊令牌预留空间，我们将模型的词汇表大小配置为 102400 进行训练
模型超参数
- 训练调解策略
  - 预热。在训练初期，学习率从一个较小的值逐渐增加到最大值。作者设置了 2000 个预热步骤，之后学习率达到最大值。
  - 在完成 80% 的训练数据后，使学习率下降到最大值的 31.6% 。让模型在训练后期逐渐减小更新幅度，从而更精细地调整参数。
  - 在完成90%的训练数据后，使学习率进一步下降，变为最大值的 10% 。这一阶段的学习率非常小，主要用于微调模型参数，使其更接近最优解。
  - 作者将梯度裁剪的阈值设置为 1.0 ，使梯度的范数被限制在 1.0 以内，防止梯度不稳定。
- 具有不同学习率调度器或不同调度器参数的训练损失曲线
缩放法则
- 结论
  - 建立了超参数的缩放定律，为确定最佳超参数提供了实证框架。
  - 采用非嵌入的FLOPs/token来表示模型规模M，而不是模型参数N，从而得到更准确的最优模型/数据扩展分配策略，并更好地预测大规模模型的泛化损失。
  - 预训练数据的质量会影响最优模型/数据扩展分配策略。数据质量越高，应为模型扩展分配增加的计算预算就越多。
训练策略：
- 设施
  - 在HAI-LLM（幻方自研的）的高效轻量级训练框架来训练和评估大型语言模型
  - 使用Flash Attention来提高硬件利用率。
  - 使用ZeRO-1在数据并行设备上对优化器状态进行分区，即将优化器状态分割并分布到不同的设备上。
  - 使用 bf16 进行前向传播和反向传播，使用 fp32 进行梯度累积。在交叉熵计算时，直接在 logits 的内存位置上完成计算和梯度更新，通过即时转换将 bf16 logits 转换为 fp32 精度。
  - 模型权重和优化器状态每 5 分钟异步保存一次。临时模型检查点会定期清理。
- 数据
  - 收集了大约 150 万个英文和中文的指令数据实例，涵盖了广泛的有用和无害主题。有用数据包含 120 万个实例，其中 31.2% 用于一般语言任务，46.6% 用于数学问题，22.2% 用于编码练习。安全数据由 300K 个实例组成，涵盖各种敏感主题。
  - SFT。收集了 3868 个中英文提示，并确定了生成的响应中没有终止而是无休止地重复一系列文本的比例。论文提出，随着数学 SFT 数据数量的增加，重复率往往会上升。这可以归因于数学 SFT 数据偶尔在推理中包括类似的模式。因此，较弱的模型难以掌握这种推理模式，从而导致重复的反应。为了解决这个问题，使用了两阶段微调和 DPO 。（使用 4 个 epoch 微调了 7B 模型，但对于 67B 模型只有 2 个 epoch）
  - DPO。为了进一步增强模型的能力，论文使用了直接偏好优化算法，这被证明是一种简单但有效的LLM对齐方法。根据有用性和无害性构建了 DPO 训练的偏好数据。论文针对DPO训练了一个epoch。

实验配置

数据集：2万亿tokens，从不同来源收集了超过 100 万个实例用于SFT(监督微调)
模型：遵循LLaMa架构，采用AdamW优化器。不同的是，用多步学习率调度器取代了余弦学习率调度器。此外，并没有扩大FFN的深度，而是在分组查询注意力（GQA）网络深度进行了扩展。

2024.1 DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

背景

在大型语言模型时代，Mixture-of-Experts （MoE）是一种很有前途的架构，用于在扩展模型参数时管理计算成本。尽管 MoE 架构有很多优点，但它也面临一个重要问题：如何确保每个专家都能获得非重叠且聚焦的知识，即每个专家都能获得不重叠和集中的知识。

研究动机、目的

优化MoE中专家知识冗余的问题，使每个专家都能获得不重叠和集中的知识，提高计算成本。

成果

架构创新。介绍了 DeepSeekMoE，这是一种创新的 MoE 架构，旨在实现最终的专家专业化，它采用细粒度专家细分和共享专家隔离两种主要策略。
实验证明。实验结果验证了 DeepSeekMoE 2B 的高度专家专业化，并表明 DeepSeekMoE 2B 几乎可以接近 MoE 模型的性能上限
可扩展性。扩展了 DeepSeekMoE 来训练 16B 模型，并表明 DeepSeekMoE 16B 仅用了大约 40% 的计算量，就实现了与 DeepSeek 7B 和 LLaMA2 7B 相当的性能。
在 DeepSeekMoE 16B 上进行了监督微调，创建了一个对齐的聊天模型，展示了 DeepSeekMoE 16B 的适应性和多功能性。

核心内容

DeepSeekMoE架构
- 细粒度专家细分
  将之前的每个专家细分为n个更小的专家，将FNN中间隐藏维度减少1/n，即在原始大小的维度上除以n。这样进行top-k策略时可以产生更多的组合。
- 共享专家隔离
  对K个专家进行隔离，作为共享专家，致力于捕获和整合不同上下文中的公共知识，使其他路由专家之间的参数冗余将得到缓解。无论 router 模块如何，每个令牌都将确定性地分配给这些共享专家。而未被隔离的专家数量减少K个，以保持恒定的计算成本。
- 负载均衡
  为了防止模型只训练少数专家，还采用了专家级的平衡损失。此外，还引入了设备级的平衡损失，确保设备之间的平衡计算，同时防止 load balance 的过度约束。

实验配置

数据集：从 DeepSeek-AI 创建的大规模多语言语料库中采样的，侧重中文和英语。从语料库中抽样了一个包含 100B 标记的子集来训练我们的模型。
分词器：训练时使用 HuggingFace Tokenizer中训练的BPE，测试时准备了一个词汇量为 8K 的分词器。
设施：和DeepSeek LLM相似
模型：
- 将 Transformer 层数设置为 9，将隐藏维度设置为 1280。采用多头注意力机制，总共有 10 个注意力头，其中每个头的维度为 128。对于初始化，所有可学习参数都以 0.006 的标准差随机初始化，并使用MoE 层替换所有 FFN，并确保专家参数的总数等于标准 FFN 的 16 倍。此外，将激活的 EA 参数（包括共享的 EA 参数和激活的路由 EA 参数）保留为标准 FFN 的 2 倍。在此配置下，每个 MoE 模型总共有大约 2B 个参数，激活的参数数量约为 0.3B。
- 使用 AdamW 优化器，超参数β1=0.9，β2=0.95。学习率是使用 warmup-and-step-decay 策略安排的。最初，在前 2K 步中，学习率从 0 线性增加到最大值。随后，在 80% 的训练步骤中，学习率乘以 0.316，在 90% 的训练步骤中再次乘以 0.316，梯度裁剪范数设置为 1.0。批量大小设置为 2K，最大序列长度为 2K，每个训练批量包含 4M 个令牌。相应地，将训练步骤总数设置为 25000 个，以实现 100B 训练 Token。

2024.5 DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

背景

随着LLM参数的增加，LLM表现的更加智能，但是，这种改进是以更大的训练计算资源和推理吞吐量的潜在降低为代价的。例如，多头注意力的KV缓存对推理效率构成了重大障碍。虽然GQA、MQA尝试解决这个问题，但通常会减少性能。

研究动机、目的

实现经济的训练和高效的推理

成果

提出了DeepSeek-V2，特点是经济的训练和高效的推理。它总共包含 236B 个参数，其中每个 Token 激活了 21B，并支持 128K Token 的上下文长度。DeepSeek-V2 采用创新架构，包括多头潜在注意力（MLA）和 DeepSeekMoE。MLA 通过将键值（KV）缓存显著压缩为潜在向量来保证高效推理，而 DeepSeekMoE 则通过稀疏计算以经济的成本训练强大的模型。与 DeepSeek 67B 相比，DeepSeek-V2 的性能明显更强，同时节省了 42.5% 的训练成本，KV 缓存减少了 93.3%，并将最大生成吞吐量提升到 5.76 倍。
根据各种英文和中文基准对 DeepSeek-V2 进行评估。即使只有 21B 个激活参数，DeepSeek-V2 在开源模型中仍取得了顶级性能，成为最强的开源 MoE 语言模型。英语开放式对话评估表明，DeepSeek-V2 Chat （RL）在开源聊天模型中具有顶级性能。此外，在 AlignBench 上的评估表明，在中文中，DeepSeek-V2 Chat （RL）的性能优于所有开源模型，甚至击败了大多数闭源模型。

核心内容

训练策略：构建了一个由 8.1T 词元组成的高质量、多源预训练语料库。首先在完整的预训练语料库上对 DeepSeek-V2 进行预训练。然后，收集 1.5M 个对话会话，其中包括数学、代码、写作、推理、安全等各个领域，以执行 DeepSeek-V2 Chat （SFT）的SFT。最后，遵循DeepSeekMath采用GRPO来进一步使模型与人类偏好保持一致。
多头潜在注意力
- 低秩键值联合压缩
  将KV隐藏状态通过矩阵W（K的矩阵和V的矩阵）压缩为低维向量，在推理的时候利用K、V的矩阵还原压缩后的KV。
- 解耦旋转位置签入
  通过RoPE操作生成解耦的查询和键，在推理过程中，还应缓存解耦的 key。
DeepSeekMoE
采用第二篇论文中的DeepSeekMoE代替FFN，并拓展了DeepSeekMoE的损失策略。

实验配置

数据集：预处理与DeepSeek 67B类似，并扩展了数据量。
分词器：与DeepSeek 67B一样，采用基于BBPE算法构建。词汇量为100K。标记化预训练语料库包含 8.1Tokens，其中中文标记比英文标记多出约 12%。
模型：DeepSeek-V2 总共包含 236B 个参数，其中每个 Token 激活了 21B。 Transformer 层数设置为 60，隐藏维度设置为 5120。所有可学习的参数都以 0.006 的标准差随机初始化。采用 AdamW 优化器，和前两篇类似，区别是还使用了 batch size 调度策略。

2024.12 DeepSeek-V3 Technical Report

研究动机、目的

缩小与闭源大模型之间的差距，实现强大的模型性能和经济的成本。

成果

介绍了 DeepSeek-V3，这是一个强大的专家混合（MoE）语言模型，总共有 671B 个参数，每个令牌激活了 37B。结构与DeepSeek-V2类似，此外，DeepSeek-V3 开创了一种用于负载均衡的辅助无损策略，并设置了多标记预测训练目标以获得更强的性能。
设计了一个 FP8 混合精度训练框架，并首次在超大规模模型上验证了 FP8 训练的可行性和有效性。
通过算法、框架和硬件的协同设计，克服了跨节点MoE（Mixture of Experts）训练中的通信瓶颈，实现了接近完全的计算-通信重叠。
DeepSeek-V3 的性能优于其他开源模型，并实现了与领先的闭源模型相当的性能。同时DeepSeek-V3 以仅 2.664M H800 GPU 小时的经济成本，在 14.8T 令牌上完成了 DeepSeek-V3 的预训练，产生了目前最强的开源基础模型。预训练后的后续训练阶段只需要 0.1M GPU 小时。训练过程稳定。
将R1的验证和反思模式融入DeepSeek-V3，显著提升了其推理性能。

核心内容

辅助无损负载均衡
为每个专家引入了一个偏差项，偏置项只用于路由决策，并不用于门控值计算。
多Token预测

在训练时同时预测多个未来标记，对于每一个预测深度，计算对应的交叉熵。
优化策略
- DualPipe并行算法
  在一对单独的前向和后向数据块中重叠计算和通信
- 高效实现跨节点 All-to-All 通信
  定制通信内核与 MoE 门控和网络拓扑（用到InfiniBand 和 NVLink）协同设计，使用 warp 特化和动态调整。
- 以最小的开销节省大量内存
  - 在反向传播期间重新计算所有 RMSNorm作和 MLA 向上投影，因此无需持久存储其输出激活。此策略的开销很小，可显著降低存储激活的内存要求。
  - 在训练过程中，我们保留模型参数的指数移动平均线（EMA），以便在学习率衰减后对模型性能进行早期估计。EMA 参数存储在 CPU 内存中，并在每个训练步骤后异步更新。这种方法允许维护 EMA 参数，而不会产生额外的内存或时间开销。
  - 多标记预测的共享嵌入和输出头。使用 DualPipe 策略，我们将模型最浅的层（包括嵌入层）和最深的层（包括输出头）部署在相同的 PP 等级上。这种安排允许在 MTP 模块和主模型之间物理共享参数和梯度，共享嵌入和输出头。这种物理共享机制进一步提高了我们的内存效率。
- FP8训练
  - 混合精度框架
    提出了一个用于 FP8 训练的混合精度框架。在这个框架中，大多数计算密度运算都是在 FP8 中进行的，而少数关键运算战略性地保持其原始数据格式，以平衡训练效率和数值稳定性。
  - 提高量化和乘法的精度
    - 精细量化
    - 提高累计精度
    - 尾数优先于指数
    - 在线量化
  - 低精度存储和通信
    将缓存的激活和优化器状态压缩为精度较低的格式，进一步减少了内存消耗和通信开销。

实验配置

数据集：与 DeepSeek-V2 相比，通过提高数学和编程样本的比例来优化预训练语料库，同时将多语言覆盖范围扩展到英文和中文之外。实现了文档打包方法以实现数据完整性，但在训练过程中没有纳入交叉样本注意力掩蔽。DeepSeek-V3 的训练语料由分词器中的 14.8T 高质量和多样化的 token 组成。
分词器：采用字节级 BPE，具有 128K 分词的扩展词汇。修改了 tokenizer 的 pretokenizer 和训练数据，以优化多语言压缩效率。此外，与 DeepSeek-V2 相比，新的 pretokenizer 引入了组合标点符号和换行符的标记。然而，当模型处理没有终端换行符的多行提示时，这个技巧可能会引入标记边界偏差，特别是对于少数镜头的评估提示。为了解决这个问题，在训练过程中随机拆分了一定比例的此类组合标记，这使模型暴露在更广泛的特殊情况下并减轻了这种偏差。
超参数：将 Transformer 层数设置为 61，将隐藏维度设置为 7168。所有可学习的参数都以 0.006 的标准差随机初始化。在此配置下，DeepSeek-V3 总共包含 671B 个参数，其中每个 Token 激活了 37B。使用 AdamW 优化器，在预训练期间，将最大序列长度设置为 4K，并在 14.8T 令牌上预训练 DeepSeek-V3。此外，采用 batch size 调度策略。

2025.1 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

背景

最近，后训练已成为完整训练流程的重要组成部分。它已被证明可以提高推理任务的准确性，与社会价值观保持一致，并适应用户偏好，同时需要相对最少的计算资源来对抗预训练。在推理方面，OpenAi的o1系列模型率先通过增加思维链推理过程的长度来引入推理时间缩放。这种方法在各种推理任务中取得了显着改进，例如数学、编码和科学推理。然而，有效测试时间缩放的挑战仍然是研究界的一个悬而未决的问题。然而，这些方法都没有达到与 OpenAI 的 o1 系列模型相当的一般推理性能。

研究动机、目的

提高模型的推理能力，比肩o1

证明即使不使用监督微调（SFT）作为冷启动，也可以通过大规模强化学习（RL）显着提高推理能力。此外，通过包含少量冷启动数据，可以进一步提高性能。

成果

直接将 RL 应用于基础模型，而无需依赖监督微调（SFT）作为初步步骤。这种方法允许模型探索解决复杂问题的思维链（CoT），从而开发 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展示了自我验证、反射和生成长 CoT 等功能，标志着研究界的一个重要里程碑。值得注意的是，这是第一个验证的开放研究，可以纯粹通过 RL 来激励的LLMs推理能力，而无需 SFT。这一突破为该领域的未来发展铺平了道路。
介绍了开发 DeepSeek-R1 的管道、该管道包含两个 RL 阶段，旨在发现改进的推理模式并与人类偏好保持一致，以及两个 SFT 阶段，作为模型推理和非推理能力的种子。
证明了大型模型的推理模式可以蒸馏到小型模型中
利用 DeepSeek-R1 生成的推理数据，对研究社区中广泛使用的多个密集模型进行了微调
将模型的最大生成长度设置为 32768 个令牌。在推理任务上，比肩o1。对于与工程相关的任务，DeepSeek-R1 的性能略好于 DeepSeek-V3，这可以帮助开发人员完成实际任务。知识任务上，性能略低于 OpenAI-o1-1217，但超越了其他闭源模型。此外，DeepSeek-R1 还擅长完成各种任务，包括创意写作、一般问答、编辑、总结等.

核心内容

Deep-Seek-Zero强化学习算法
- 组相对策略优化(GRPO)
  GRPO从旧策略中提取一组问题和对应的输出，计算每个输出的奖励函数,用优势函数计算优势，随后使用目标函数,通过梯度上升优化新策略。重复上述策略直至收敛。
- 奖励模型
  采用了基于规则的奖励系统，主要由两类奖励组成：
  - 准确性奖励。评估响应是否正确。例如，对于具有确定性结果的数学问题，模型需要以指定格式（例如，在框内）提供最终答案，从而实现可靠的基于规则的正确性验证。同样，对于 LeetCode 问题，编译器可用于根据预定义的测试用例生成反馈。
  - 格式奖励。该模型强制模型将其思考过程置于 ‘’ 和 ‘’ 标签之间。
    在 DeepSeek-R1-Zero 的训练过程中观察到的一个特别有趣的现象是“顿悟时刻”的出现。。在此阶段，DeepSeek-R1-Zero 通过重新评估其初始方法来学习为问题分配更多的思考时间。这种行为不仅证明了模型不断增长的推理能力，也是强化学习如何导致意想不到的复杂结果的迷人例子。这一刻不仅是模型的“顿悟时刻”，也是观察其行为的研究人员的“顿悟时刻”。它强调了强化学习的力量和美感：我们不是明确地教模型如何解决问题，而是简单地为它提供正确的激励，它就会自主开发先进的问题解决策略。“顿悟时刻”有力地提醒我们，RL 有可能在人工系统中解锁新的智能水平，为未来更加自主和自适应的模型铺平道路。
DeepSeek-R1使用冷启动进行强化学习
受到 DeepSeek-R1-Zero 的有希望结果的启发，自然而然地出现了两个问题：1）通过纳入少量高质量数据作为冷启动，是否可以进一步提高推理性能或加速收敛？2）如何训练一个用户友好的模型，该模型不仅产生清晰连贯的思维链（CoT），而且还展示了强大的通用能力？论文提出了四个解决方案：
- 冷启动
  为了防止基础模型出现 RL 训练的早期不稳定冷启动阶段，对于 DeepSeek-R1，论文构建并收集少量的长 CoT 数据，以微调模型作为初始 RL 参与者。为了收集这些数据，作者还探索了几种方法：以长 CoT 的 few-shot 提示为例，直接提示模型通过反射和验证生成详细的答案，以可读格式收集 DeepSeek-R1-Zero 输出，并通过人工注释者的后处理来提炼结果。提高了可读性和性能。
- 面向推理的强化学习
  在 RL 训练期间引入了语言一致性奖励，其计算方式是 CoT 中目标语言单词的比例。尽管消融实验表明，这种对齐会导致模型的性能略有下降，但这种奖励与人类的偏好一致，使其更具可读性。最后，将推理任务的准确性和语言一致性的奖励结合起来，直接将它们相加，形成最终的奖励。然后，对微调后的模型应用 RL 训练，直到它在推理任务上实现收敛。
- 抑制采样、监督微调
  当面向推理的 RL 收敛时，利用生成的检查点来收集 SFT（监督微调）数据，用于下一轮。与主要关注推理的初始冷启动数据不同，这个阶段整合了来自其他领域的数据，以增强模型在写作、角色扮演和其他通用任务方面的能力。具体来说，利用生成数据并微调模型，如下所述。
  - 推理数据
    过整合额外的数据来扩展数据集，其中一些数据通过使用生成奖励模型，将真实和模型预测输入到 DeepSeek-V3 中进行判断。此外，由于模型输出有时混乱且难以阅读，因此我们过滤掉了混合语言、长释义和代码块的思维链。对于每个提示，我们都会对多个响应进行采样，并只保留正确的响应。我们总共收集了大约 600k 个与推理相关的训练样本。
  - 非推理数据
    对于非推理数据，例如写作、事实 QA、自我认知和翻译，论文采用 DeepSeek-V3 管道并重用 DeepSeek-V3 的 SFT 数据集的部分。对于某些非推理任务，作者调用 DeepSeek-V3 来生成潜在的思维链，然后再通过提示回答问题。但是，对于更简单的查询，例如 “hello”，不会提供 CT 作为响应。最后，总共收集了大约 200k 个与推理无关的训练样本。
    使用上述约 800k 样本的精选数据集对 DeepSeek-V3-Base 进行了两个 epoch 的微调。
- 适合所有场景的强化学习
  为了进一步使模型与人类偏好保持一致，论文实施了二次强化学习阶段，旨在提高模型的有用性和无害性，同时完善其推理能力。具体来说，使用奖励信号和不同提示分布的组合来训练模型。对于推理数据，遵循 DeepSeek-R1-Zero 中概述的方法，该方法利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程。对于一般数据，采用奖励模型来捕捉复杂和细微场景中的人类偏好。以 DeepSeek-V3 管道为基础，采用类似的偏好对和训练提示分布。为了提供帮助，只关注最终摘要，确保评估强调响应对用户的效用和相关性，同时最大限度地减少对底层推理过程的干扰。
蒸馏
为了让更高效的小型模型（如 DeepSeek-R1）具有推理功能，论文使用 DeepSeek-R1 精选的 800k 样本直接微调了Qwen和Llama等开源模型，这种简单的蒸馏方法显著提高了较小模型的推理能力。（只蒸馏了SFT）