用豆包帮你逐篇快速阅读DeepSeek的8篇论文

JackieZhengChina

于 2025-02-06 22:32:08 发布

阅读量1.2k

点赞数 22

分类专栏：大模型开源语言模型文章标签：人工智能开源

本文链接：https://blog.csdn.net/admans/article/details/145482675

版权

语言模型同时被 3 个专栏收录

14 篇文章

订阅专栏

开源

9 篇文章

订阅专栏

大模型

5 篇文章

订阅专栏

《DeepSeek LLM: Scaling open-source language models with longtermism》

一、研究概述

核心目标：探究语言模型缩放规律，构建并评估 DeepSeek LLM，推动开源语言模型向大规模发展，缩小与前沿模型差距。
主要成果：确定新缩放法则与最优缩放策略，依此训练的 67B 模型在多基准测试中表现优异，部分超越 LLaMA - 2 70B 等，开源且为后续研究奠定基础。

二、模型构建关键要素

数据处理：对 2T 双语（中英）数据精心处理。去重阶段，跨 91 个 Common Crawl 数据转储进行操作，大幅提升去重效果；过滤时，综合语言和语义评估文档质量；重混环节，调整数据平衡。采用 Byte - level Byte - Pair Encoding（BBPE）算法训练分词器，设定合适词汇量并处理特殊情况，确保数据有效转化为模型输入。
架构设计：宏观上，7B 和 67B 模型在层数等方面有差异，便于训练和推理优化。微观上，遵循 LLaMA 部分设计，如 Pre - Norm 结构、SwiGLU 激活函数、Rotary Embedding 等，但用多步学习率调度器替代余弦调度器，依经验选定参数，平衡训练连续性与性能，提升训练效率和效果。
超参数设定：模型用 AdamW 优化器及特定参数初始化，多步学习率调度器依训练阶段动态调整学习率，如在特定步数后按比例衰减，梯度裁剪为 1.0。依经验和实验确定不同规模模型的批量大小和学习率，如 7B 和 67B 模型在预训练时参数各异，确保训练稳定高效。

三、缩放规律探究

超参数缩放：经大量实验，发现计算预算与最优批量大小、学习率呈特定幂律关系。如随计算预算增加，最优批量大小递增、学习率递减，且确定了具体公式，为不同预算下模型训练提供超参数设定指导，保证模型性能稳定提升。
模型与数据缩放：引入新的模型规模表示（非嵌入 FLOPs/token M），更精准反映模型计算成本。依 IsoFLOP 方法拟合缩放曲线，得出模型和数据的最优缩放指数，可准确预测模型性能，为模型扩展提供关键理论支撑，指导资源合理分配。
数据质量影响：研究表明数据质量显著影响缩放规律。高质量数据使计算预算更多分配给模型缩放，不同数据集的最优缩放策略差异可间接评估数据质量，凸显数据质量在模型训练中的核心地位，为数据筛选提供依据。

四、模型对齐与评估策略

对齐方法：收集 150 万英汉语言指令数据，分有益和安全两类。先对 7B 和 67B 模型分别用 4 轮和 2 轮监督微调（SFT），监测基准准确率和重复率，对重复问题采用两阶段微调或直接偏好优化（DPO）解决；再用 DPO 训练，依有益和无害构建偏好数据，提升模型能力和对齐效果。
评估方式：在多类公共基准测试中评估，含多学科选择题、语言理解推理、闭卷问答等。依任务特点采用不同评估方法，如基于困惑度的选择、生成式评估、语言建模评估等，确保全面准确衡量模型性能，为模型改进提供方向。

五、实验结果亮点

基准测试成绩：在多个基准测试中，DeepSeek 67B 模型优势明显。如在 MMLU、GSM8K、HumanEval 等测试中超越 LLaMA - 2 70B，在代码、数学和推理任务表现突出；Chat 模型经微调后在多数任务提升，部分任务虽有波动，但整体性能增强，证明模型架构和训练方法有效性。
开放和保留评估：在开放端评估中，DeepSeek 67B Chat 在中英文任务表现出色，超越 ChatGPT 等模型；在 LeetCode、匈牙利国家高中考试等保留测试集里，大模型优势显著，且 7B 模型在保留任务表现也有亮点，显示模型泛化和实际应用能力。
安全评估表现：构建安全分类系统和 2400 题测试集，手动审查结果显示模型在多类安全测试中表现良好；用 “Do - Not - Answer” 数据集测试，得分高于 ChatGPT 和 GPT - 4，表明模型安全机制有效，符合安全应用需求。

六、研究总结与展望

研究贡献：在缩放规律上取得突破，确定新模型表示和缩放策略；构建高质量数据集和有效训练模型；在多方面评估展示模型优势，为开源语言模型发展提供全面技术支持和实践经验。
局限与未来：模型存在训练后知识更新、信息准确性和幻觉等问题，中文数据初期有局限。未来将发布技术报告，扩充数据集提升能力，用强化学习增强推理，持续推动开源语言模型发展。

《DeepSeek-Coder: When the Large Language Model Meets Programming - The Rise of Code Intelligence》

一、研究概述

核心目标：填补开源与闭源代码模型差距，开发 DeepSeek-Coder 系列，提升代码智能处理能力，推动软件开发领域变革。
主要成果：成功训练 1.3B - 33B 开源代码模型，在多代码基准测试中性能领先，部分超越闭源模型，为开发者提供有力工具，推动开源代码模型发展。

二、数据构建与处理

数据来源与筛选：训练集含 87% 源代码（涵盖 87 种编程语言）、10% 英文代码相关自然语言、3% 中文自然语言。从 GitHub 采集代码，依规则过滤低质量代码，如限制行长度、字符比例等；对非代码文件依内容和字符数筛选，确保数据质量，为模型训练提供优质素材。
数据增强与预处理：进行依赖解析，用拓扑排序算法处理文件间依赖，依依赖关系重排文件，保证代码逻辑连贯性；在仓库级去重，避免数据冗余；用编译器和质量模型结合启发式规则及 n - gram 过滤，去除语法错误、低质量和可能污染的数据，提升数据纯度和有效性。

三、模型训练体系

训练策略
- 多目标训练：结合下一个 token 预测和 Fill - In - the - Middle（FIM）训练。FIM 训练中，对比不同模式和参数，最终选 50% PSM 率，通过分割和重组代码片段，增强模型代码填充能力，使其能更好应对代码编写需求。
- 优化器与超参数：采用 AdamW 优化器及特定参数，依 DeepSeek LLM 缩放定律设批量大小和学习率，学习率用三阶段策略调整，确保训练稳定高效，使模型在不同阶段有效学习。
模型架构：基于 DeepSeek LLM 框架，不同规模模型（1.3B、6.7B、33B）参数有差异。用 HuggingFace 训练 BPE 分词器，采用特定架构组件，如 Rotary Position Embedding、Grouped - Query - Attention（33B 模型）和 FlashAttention v2，提升模型编码和计算效率。
长上下文与指令调整：重设 RoPE 参数将上下文窗口扩至 16K，经额外训练使模型能处理长代码序列。用高质量指令数据微调 DeepSeek - Coder - Base 成 DeepSeek - Coder - Instruct，用独特标记区分对话轮次，提升模型零样本指令处理能力。

四、实验结果分析

代码生成能力：在 HumanEval、MBPP、DS - 1000 等基准测试中，DeepSeek - Coder - Base 33B 平均准确率领先开源模型，如在 HumanEval 超 50%、MBPP 达 66%；经指令微调的模型在 HumanEval 超 GPT - 3.5 - Turbo，大幅缩小与 GPT - 4 差距，证明模型代码生成能力强。
FIM 代码完成效果：在 FIM 任务的单 - 行填充基准测试中，尽管 1.3B 模型最小，但 DeepSeek - Coder 系列表现优异，优于 StarCoder 和 CodeLlama 等，且模型性能随规模增大提升，显示 FIM 训练成效。
跨文件代码完成表现：在 CrossCodeEval 跨文件代码完成任务中，DeepSeek - Coder 6.7B 表现突出，在多种编程语言测试中超越其他模型，证明仓库级预训练和架构优势，能有效处理跨文件代码场景。
程序辅助数学推理成果：在 GSM8K、MATH 等 7 个数学推理基准测试中，DeepSeek - Coder 系列表现出色，33B 模型成绩突出，表明模型在通过编程解决数学问题方面有强大能力。

五、模型改进与拓展

持续预训练提升：为增强自然语言和数学推理能力，从 DeepSeek - LLM - 7B Base 对 DeepSeek - Coder 进行 2T tokens 预训练成 DeepSeek - Coder - v1.5 7B。对比测试显示，新模型在数学推理和自然语言任务提升显著，证明预训练策略有效。
应用与发展前景：模型在代码编写、修复、数学计算等场景应用广泛，如构建数据库和解决 LeetCode 问题示例所示。其开源且性能优，为开发者提供高效工具，有望推动软件开发智能化进程，促进代码智能领域创新发展。

《DeepSeek-VL: Towards Real-World Vision-Language Understanding》

一、研究背景与目标

研究背景：大型语言模型发展促使多模态模型兴起，但开源多模态模型与专有模型在实际性能和用户体验上存在差距。多数开源模型在多模态数据利用、架构设计、语言能力保持等方面存在不足，难以满足真实世界复杂任务需求。
核心目标：开发 DeepSeek-VL 模型，通过创新数据构建、架构设计和训练策略，提升模型在真实场景下视觉 - 语言理解能力，缩小与专有模型差距，推动多模态技术实用化。

二、数据构建策略

多源数据收集与分类：数据分为视觉 - 语言预训练数据和监督微调数据。预训练数据涵盖交错图像 - 文本、图像字幕、表格图表、网络代码、文档 OCR、场景文本 OCR 等多类型数据，来源广泛，包括 MMC4、Wiki、Websight 等众多数据集，全面覆盖真实世界视觉和文本信息。
指令调优数据构建：监督微调数据精心构建，收集真实测试案例构建分类体系，涵盖识别、转换、分析等多类别任务。从 ShareGPT4V 等开源数据集和内部高质量数据选取样本，确保数据反映实际应用场景，提升模型指令跟随和对话能力。

三、模型架构与训练流程

创新架构设计
- 混合视觉编码器：采用 SigLIP 和基于 SAM - B 的编码器组合，能处理 1024x1024 高分辨率图像。在不同分辨率下提取特征并融合，生成 576 维视觉令牌，兼顾语义和细节，为模型提供丰富视觉信息。
- 视觉 - 语言适配器：用两层混合 MLP 连接视觉编码器和语言模型，分别处理高低分辨率特征后融合转换，促进视觉和语言信息交互，提升模型跨模态理解能力。
- 语言模型基础：基于 DeepSeek LLM，遵循 LLaMA 部分设计，采用 Pre - Norm 结构、SwiGLU 激活函数等，保持语言处理能力优势，实现视觉 - 语言联合训练。
三阶段训练流程
- 适配器预热阶段：固定视觉编码器和语言模型，用 ShareGPT4V 图像 - 文本对和文档 OCR 渲染对训练视觉 - 语言适配器。实验表明，此阶段扩大数据规模无益，为后续训练提供基础。
- 联合预训练阶段：冻结视觉编码器，优化语言模型和适配器。通过调整语言和多模态数据比例，发现 7:3 时能平衡语言和多模态能力，防止语言遗忘。对小模型训练采用多选择 PPL 监测和引入少量 SFT 数据，提升训练稳定性和效果。
- 监督微调阶段：用视觉 - 语言 SFT 数据微调预训练模型，优化语言模型、适配器和视觉编码器（部分冻结），融合多模态和纯文本对话数据，增强模型对话能力。

四、模型评估与分析

多基准测试评估
- 多模态综合测试：在 MMMU、CMMMU、MMBench 等多模态理解数据集表现优异，7B 模型超越多数同规模开源模型，接近专有模型，如在 SeedBench 与 GPT - 4V 差距小，证明自然图像理解能力强。
- 专项能力测试：在图表理解（OCRBench）、幻觉检测（POPE）、科学问题解决（ScienceQA、MathVista）等测试中表现突出，显示在特定领域任务处理能力，不过在数学逻辑方面与 GPT - 4V 仍有差距。
语言基准测试对比：在 MMLU、HellaSwag、GSM8K 等语言基准测试中，DeepSeek - VL 与 DeepSeek - 7B 相当或更优，如在 MMLU 和 AGIEval 表现更好，表明多模态训练对语言任务有促进，但在数学任务（GSM8K）有一定下降，体现模态竞争关系。
人工评估与消融研究
- 人工评估优势：人工构建 100 题数据集评估，涵盖多种任务。与 InternLM - XComposer2 - VL、CogVLM 和 GPT - 4V 比较，在整体和部分任务表现佳，尤其在识别、转换和常识推理方面，且 GPT - 4V 评估中多优于开源模型。
- 消融实验结论：通过对训练阶段、模态分组、模态预热、视觉编码器和适配器等方面消融实验，明确各组件和训练策略作用。如阶段 1 数据扩充无益、模态分组可提效、模态预热稳定训练、混合视觉编码器和特定适配器设计有效，为模型优化提供依据。

五、研究总结与展望

研究贡献：提出有效视觉 - 语言预训练策略，创新混合视觉编码器和训练流程，在多基准测试和人工评估表现出色，为多模态模型研究提供新思路和实践经验。
局限与未来：模型存在预训练方法局限、语言模态竞争、部分任务性能待提升等问题。未来计划扩大模型规模、引入新技术提升性能，拓展应用场景，推动多模态技术发展。

《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》

一、研究背景与目标

研究背景：大型语言模型发展迅速，但面临训练成本高、推理效率低等问题，限制其广泛应用。现有模型在平衡性能、成本和效率方面存在不足，难以满足实际需求。
核心目标：研发 DeepSeek-V2 模型，利用创新架构（如 Multi-head Latent Attention 和 DeepSeekMoE）实现经济高效训练与推理，在保持强大性能同时降低成本、提高效率，推动语言模型技术进步。

二、模型架构创新

Multi-head Latent Attention（MLA）
- 核心机制：针对传统 Multi-Head Attention（MHA）在推理时 Key-Value（KV）缓存大的问题，MLA 采用低秩键值联合压缩。通过特定投影矩阵将键值压缩为低维潜在向量，大幅减少 KV 缓存，同时不影响性能，如在推理时缓存元素大幅减少。
- 辅助策略：为减少训练激活内存，对查询进行低秩压缩；针对 Rotary Position Embedding（RoPE）与低秩 KV 压缩不兼容问题，提出 decoupled RoPE 策略，用额外多头查询和共享键携带 RoPE，确保模型高效运行。
DeepSeekMoE
- 架构优势：在 Feed-Forward Networks（FFNs）采用 DeepSeekMoE 架构，细分专家提高专业化和知识获取能力，隔离共享专家减少冗余。相比传统 MoE 架构，在相同参数下性能更优。
- 优化机制：设计设备受限路由机制控制通信成本，确保每个 token 目标专家分布在有限设备上；引入专家级、设备级和通信平衡辅助损失，防止路由崩溃、平衡计算和通信；采用设备级 token-dropping 策略缓解负载不平衡计算浪费，提升训练效率。

三、模型训练与评估

训练设置
- 数据与参数：预训练数据含 8.1T 高质量多源 tokens，中文数据量增加且质量提升，采用特定分词器。模型设 60 层、5120 隐藏维度等参数，总 236B 参数，21B/token 激活，用 AdamW 优化器及特定学习率、批处理等策略训练。
- 基础设施与长上下文扩展：基于 HAI-LLM 框架，采用多种并行技术和优化手段训练，如 16 路零气泡管道并行、8 路专家并行等。用 YaRN 扩展上下文窗口至 128K，经额外训练和参数调整确保长上下文性能。
评估结果
- 基准测试性能：在 MMLU、BBH、HumanEval 等多基准测试中，21B 激活参数的 DeepSeek-V2 显著优于 DeepSeek 67B 等模型，在英语、代码、数学和中文任务表现出色，如在 MMLU 准确率高，在代码和数学基准测试与同类模型可比或更优。
- 训练与推理效率：训练成本上，相比 DeepSeek 67B 节省 42.5%，因激活参数少和优化措施提高了 Model FLOPs Utilization（MFU）；推理效率方面，经参数转换和 KV 缓存量化，生成吞吐量达 DeepSeek 67B 的 5.76 倍，输入吞吐量超 100K tokens / 秒。

四、模型对齐与优化

监督微调（SFT）：用 1.5M 高质量指令调优数据（含 1.2M 有益和 0.3M 安全实例）对 DeepSeek-V2 微调 2 轮，学习率 5x10-6。在多基准测试评估，在数学和代码相关任务提升显著，如在 GSM8K、MATH 和 HumanEval 表现更好。
强化学习（RL）
- 算法与策略：采用 Group Relative Policy Optimization（GRPO）算法，分推理对齐和人类偏好对齐两阶段训练。收集多源偏好数据训练奖励模型，用混合引擎、vLLM 等优化训练效率，确保模型与人类偏好对齐。
- 评估效果：在标准和开放端基准测试评估，Chat（RL）版在数学和代码任务比 Chat（SFT）版更强，在英语和中文开放端对话生成表现优异，如在 MT-Bench 和 AlpacaEval 2.0 得分高，在中文 AlignBench 表现突出，但推理能力与顶级模型仍有差距。

五、研究总结与展望

研究贡献：DeepSeek-V2 凭借创新架构在性能、成本和效率上取得突破，在多方面评估表现优异，为语言模型发展提供新方向，证明了混合专家架构和相关优化策略的有效性。
局限与未来：模型存在知识更新、信息准确性和语言局限性等问题。未来将探索扩大 MoE 模型规模、提升多模态支持能力、增强模型安全性和可靠性，推动语言模型向通用人工智能目标迈进。

《DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source
Models in Code Intelligence》

一、研究概述与核心贡献

研究背景与目标：在开源代码模型蓬勃发展但仍落后于闭源竞品的背景下，DeepSeek-Coder-V2 应运而生。其目标是通过创新架构与大规模训练，在代码智能的各关键维度实现性能飞跃，缩小与 GPT4-Turbo 等行业领先者的差距，为开源社区注入强大动力。
主要成果与创新点：基于 DeepSeek-V2 拓展而来，拥有 16B 和 236B 两种参数规模，独特的混合专家（MoE）架构使其在激活参数效率上表现卓越，分别仅需 2.4B 和 21B。它率先突破开源百亿元参数代码模型瓶颈，支持多达 338 种编程语言，将上下文长度延伸至 128K tokens，为复杂编程任务提供强大支撑，在代码生成、修复、推理及数学运算等多方面达到或接近闭源顶尖水平，且秉持开源精神促进广泛应用与创新。

二、数据构建：深度与广度的融合

数据来源多元化：预训练数据精心打造，60% 源自 GitHub 和 CommonCrawl 的海量源代码，经严格筛选与去重涵盖 338 种编程语言；10% 的数学语料挖掘自 CommonCrawl，规模近乎翻倍；30% 自然语言语料巧妙取材于 DeepSeek-V2，确保语言知识传承。如此多元组合为模型奠定坚实知识基础，适应多领域编程需求。
数据处理精细化：对 GitHub 代码运用精细规则筛选，如严格把控行长度、字符构成比例，精准去除低质量和冗余数据；从 CommonCrawl 收集数据时，借助 fastText 模型与 BPE 分词器协同，依多轮迭代策略精准捕捉代码与数学相关网页，提升数据相关性与纯度，消融实验有力证实新数据体系对模型性能的显著提升效能。

三、训练体系：策略与架构的协同进化

训练策略双轨驱动：16B 模型采用 Next-Token-Prediction 与 Fill-In-Middle（FIM）双策略，FIM 以 0.5 比例在 PSM 模式下高效重组代码，激发模型代码补全创造力；236B 模型聚焦 Next-Token-Prediction，集中力量提升语言生成精准度，二者策略适配不同规模与应用场景，优化训练效果。
架构超参优化升级：架构紧密承袭 DeepSeek-V2 并优化，16B 和 236B 模型精准对接对应版本超参数。针对训练不稳定果断回归传统归一化，依循 DeepSeek-V2 设定 AdamW 优化器参数，精心调整批量与学习率，采用余弦衰减精细规划学习率走势，保障训练平稳高效，促进模型能力持续进阶。
长上下文与对齐强化：借助 Yarn 技术成功拓展上下文至 128K，分阶段训练强化长序列处理专长，测试验证全阶段性能卓越。对齐阶段先构建混合指令集微调和强化学习两步走，GRPO 算法主导强化学习，深度挖掘多源数据生成优质提示与奖励信号，训练专用奖励模型精准引导，全方位提升模型编程任务表现。

四、实验结果：多领域性能卓越彰显实力

代码生成卓越表现：在 HumanEval 和 MBPP 基准测试中，DeepSeek-Coder-V2-Instruct 以 75.3% 平均得分紧逼顶尖闭源模型，多语言生成优势尽显；在 LiveCodeBench 和 USACO 实战评估里，与 GPT-4o 并列高分梯队，复杂编程难题应对自如，彰显强大代码创作实力。
代码完成高效精准：RepoBench 仓库级任务中，DeepSeek-Coder-V2-Lite-Base 以少胜多，Python 和 Java 代码完成效率与大模型相当；Fill-in-the-Middle 任务中，其在多语言测试表现卓越，精准填充代码空位，有力提升编程效率。
代码修复智能领先：在 Defects4J、SWE-bench 和 Aider 修复测试中，DeepSeek-Coder-V2-Instruct 于 Aider 数据集独占鳌头，远超开源同行，逼近闭源水准，在自动化代码修复领域展现领先智能。
代码理解推理突破：CRUXEval 推理测试中，虽与闭源巨头有距，但在开源阵营脱颖而出，展现扎实代码理解与推理功底，为复杂编程逻辑处理提供有力支持。
数学推理实力强劲：在 GSM8K、MATH 等数学基准测试中，DeepSeek-Coder-V2 成绩斐然，MATH 测试 75.7% 准确率直逼 GPT-4o，AIME 2024 竞赛解题能力出众，凸显强大数学思维与解题能力，赋能编程中数学难题求解。
自然语言能力传承：依托 DeepSeek-V2，DeepSeek-Coder-V2 自然语言能力出色，在 MMLU、BBH 等标准测试及 Arena-Hard 等开放式任务中表现优异，虽不同规模模型在各测试中表现有别，但整体展现良好语言理解与生成能力，实现代码与语言能力协同发展。

五、研究总结与未来展望

研究总结：DeepSeek-Coder-V2 成功突破开源代码模型瓶颈，凭借大规模训练与创新架构，在代码智能核心领域性能卓越，有力推动开源代码技术发展，为开发者提供高效工具。
未来方向：尽管成果显著，但指令跟随能力与顶尖模型差距指明改进方向。后续研究将聚焦强化此能力，深度优化模型架构与训练策略，提升复杂编程场景适应性，进一步释放代码智能潜力，助力软件开发智能化变革。

《DeepSeek-Prover-V1.5：Harnessing Proof Assistant Feedback
for Reinforcement Learning and Monte-Carlo Tree Search》

一、研究核心目标与创新成果

核心目标：聚焦于攻克 Lean 4 环境下形式定理证明难题，全力提升语言模型在此领域的推理与证明能力，缩小与理想性能间的差距。
关键创新与成果：成功研发 DeepSeek-Prover-V1.5，整合大规模数学预训练、创新数据集构建、强化学习及蒙特卡洛树搜索等前沿技术。在高中级 miniF2F 和本科级 ProofNet 基准测试中成绩斐然，单遍全证明生成和树搜索策略下分别达到 63.5% 和 25.3% 的通过率，远超先前模型，引领形式定理证明技术革新。

二、模型训练架构与策略

预训练强化基础：基于 DeepSeekMath-Base 深度预训练，聚焦形式数学语言，融入 Lean、Isabelle、Metamath 等专业数据，筑牢模型形式证明与数学推理根基，提升对复杂数学结构和逻辑的理解与处理能力。
监督微调优化提升：精心打造 Lean 4 代码补全数据集，运用专家迭代生成证明数据，并借 DeepSeek-Coder V2 236B 为证明代码添加自然语言注释与中间策略状态信息。经 9B tokens 训练，有效弥合自然语言与形式证明鸿沟，增强模型对证明任务的适应性与准确性。
强化学习精准校准：采用 GRPO 算法，依 Lean 4 证明器验证结果为奖励反馈，深度优化模型，使其紧密契合形式规范，增强证明策略有效性与可靠性，显著提升模型在复杂定理证明场景中的表现。

三、蒙特卡洛树搜索创新机制

战术级树抽象构建：创新引入证明树抽象，依截断 - 恢复机制拆解证明为树节点序列，精准定义状态与行动空间。于节点存储等效战术代码，依 Lean 证明器状态信息智能选择与扩展节点，为证明搜索提供高效架构支撑。
交互式证明流程设计：融合蒙特卡洛树搜索四步骤于证明生成，精心设计选择、扩展、模拟与反向传播环节。选择阶段依 UCB 算法权衡探索 - 利用，扩展阶段依模型生成战术并验证更新树结构，反向传播阶段依结果更新节点值，借内在奖励机制驱动探索，优化证明搜索路径。
并行化高效加速：多维度并行优化 MCTS，根并行部署多 runners 与异步处理机制提升并发，树并行用多线程平衡任务负载，虚拟损失策略鼓励节点探索，全方位提升搜索效率，减少计算时间。

四、实验结果深度洞察

基准测试卓越表现：在 miniF2F 和 ProofNet 基准测试中，单遍全证明生成时 DeepSeek-Prover-V1.5-RL 成绩出众，树搜索策略下更创新高。如在 miniF2F 测试集以 63.5% 通过率超同类模型，彰显模型强大推理与证明能力。
训练策略效果验证：大规模采样下，强化学习显著增强模型能力，与 RMaxTS 协同增效。自然语言思维链（CoT）模式优势随样本量递增，混合策略结合 CoT 与非 CoT 模式进一步提升性能，证明多策略融合的有效性。
RMaxTS 组件剖析：消融实验表明，RMaxTS 中内在奖励与折扣 UCB 机制对探索不可或缺，缺一则性能骤降；战术状态信息引导对树搜索性能提升关键，缺失会致性能下滑，凸显各组件在证明搜索中的核心作用。

五、研究总结与未来展望

研究总结：DeepSeek-Prover-V1.5 凭借创新架构与训练策略，在 Lean 4 形式定理证明领域达领先水平，为定理证明自动化提供有力工具，推动人工智能数学推理发展。
未来方向：后续将聚焦训练评估不完全证明的批评模型，优化证明搜索分支裁剪；增强模型对复杂 Lean 文件的理解与处理能力，拓展应用范围；持续探索新算法与架构，提升模型性能与通用性，助力形式定理证明技术迈向新高度。

《DeepSeek-V3 Technical Report》

一、研究概述与核心创新

研究背景与目标：在大语言模型快速迭代、开源与闭源竞争激烈的背景下，DeepSeek-V3 应运而生。其旨在通过创新架构与训练策略，突破现有模型局限，提升性能并降低成本，缩小与通用人工智能差距，增强开源模型竞争力。
关键创新成果：创新采用无辅助损失负载均衡策略与多令牌预测训练目标，有效提升模型性能与训练效率。基于 671B 参数（37B / 令牌激活）的混合专家架构，在多领域基准测试中表现卓越，超越多数开源模型，接近顶尖闭源模型，且训练成本经济高效（2.788M H800 GPU 小时），训练过程稳定。

二、模型架构深度解析

基础架构优化
- 多头潜在注意力（MLA）机制：通过低秩联合压缩注意力键值对，大幅减少推理时 KV 缓存，同时保持性能与传统多头注意力相当，还对查询进行低秩压缩降低训练激活内存，优化注意力计算流程。
- DeepSeekMoE 架构改进：采用细粒度专家与共享专家机制，引入无辅助损失负载均衡策略，动态调整专家偏差项实现负载均衡，辅以序列级辅助损失防止极端不平衡，结合节点限制路由和无令牌丢弃技术，提升训练效率与模型稳定性。
多令牌预测（MTP）策略：创新性地将预测范围扩展到多个未来令牌，通过顺序预测模块保持因果链完整，计算交叉熵损失作为额外训练目标，提升数据效率与模型预测能力，且在推理时可灵活应用于推测解码提升效率。

三、基础设施高效支撑

计算集群与训练框架协同：依托 2048 个 H800 GPU 集群，采用 HAI-LLM 框架，结合 16 路管道并行、64 路专家并行和 ZeRO-1 数据并行技术，并通过 DualPipe 算法优化管道并行，减少气泡与通信开销；定制高效跨节点通信内核，充分利用带宽；采用多种内存优化技术，降低内存占用，实现高效训练。
FP8 训练创新实践：构建 FP8 混合精度训练框架，多数计算采用 FP8 精度加速训练并减少内存消耗，关键操作保留高精密确保稳定性；引入细粒度量化、提高积累精度、优化尾数指数策略及在线量化技术，有效扩展 FP8 动态范围，降低量化误差，提升训练精度。
推理部署优化策略：在 H800 集群部署，预填充与解码阶段分离。预填充阶段采用特定并行组合与冗余专家策略提升效率与负载均衡，解码阶段优化专家选择与通信方式，探索动态冗余与多批次处理，增强吞吐量与性能。

四、预训练关键环节

数据构建与处理：优化预训练语料，提升数学和编程样本比例，扩展多语言覆盖，采用文档打包与 FIM 策略，增强数据完整性与模型能力；使用 128K 词汇量的字节级 BPE 分词器，优化多语言压缩，处理特殊令牌偏差。
超参数精细设置：模型层面，设置 61 层、7168 隐藏维度等参数，确定 MLA 和 MoE 架构细节；训练层面，采用 AdamW 优化器，依阶段动态调整学习率、批量大小等参数，合理配置负载均衡与 MTP 相关参数，保障训练效果。
长上下文扩展实现：借鉴 DeepSeek-V2 方法，运用 YaRN 技术分两阶段将上下文窗口从 4K 扩展到 128K，在长上下文测试中性能优异，增强模型处理长序列能力。
评估体系与结果分析：在多类基准测试中评估，涵盖语言、数学、代码等领域，DeepSeek-V3-Base 表现突出，超越同类开源模型；消融实验验证 MTP 和无辅助损失平衡策略有效，且分析了不同负载平衡方式对模型性能与专家专业化的影响。

五、后训练优化提升

监督微调（SFT）策略：构建 1.5M 多领域指令调优数据集，推理数据经 DeepSeek-R1 模型生成与处理后筛选，非推理数据由 DeepSeek-V2.5 生成并人工验证；采用特定学习率调度对模型微调两周期，优化样本打包与掩码策略。
强化学习（RL）机制：结合规则和模型奖励机制，对有明确规则的问题采用规则验证，对自由形式答案问题训练奖励模型，并构建包含思维链的偏好数据增强可靠性；运用 Group Relative Policy Optimization（GRPO）算法，采样多组输出优化策略模型，融入多领域提示提升性能。
综合评估与分析：在新增基准测试上评估聊天模型，与多基线模型对比，全面展示模型性能；通过消融实验验证 FP8 训练框架优势及分析块量化问题，为模型优化提供依据。

六、研究总结与未来展望

研究总结：DeepSeek-V3 在架构、训练与优化策略上取得重大创新，性能优异且训练成本低，为开源语言模型发展注入强大动力，在多领域展现出巨大应用潜力。
未来方向：持续探索模型架构改进，如优化注意力与专家机制；深化训练技术研究，提升低精度训练效果；拓展应用场景，加强在复杂任务和多语言环境下的性能优化，推动语言模型技术迈向新高度。

《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via
Reinforcement Learning》

核心目标：在大语言模型快速发展背景下，聚焦于利用强化学习（RL）提升模型推理能力，突破传统监督微调（SFT）的依赖，探索模型自主进化路径，并将推理能力迁移至小型模型，增强模型在多领域推理任务中的性能。
关键创新：首次实现无 SFT 预训练的 DeepSeek-R1-Zero，验证了纯 RL 激发推理能力的可行性；提出 DeepSeek-R1 多阶段训练框架，融合冷启动数据与多次 RL 和 SFT 过程，有效提升性能；成功将 DeepSeek-R1 推理能力蒸馏至小型模型，开源多个蒸馏模型，显著提升小型模型推理基准测试成绩。

二、模型训练方法与技术路径

DeepSeek-R1-Zero 的 RL 训练
- RL 算法选择：采用 Group Relative Policy Optimization（GRPO）算法，摒弃传统等大的 critic 模型，依据组分数估计基线，通过采样输出优化策略模型，降低训练成本，提高训练效率。
- 奖励模型构建：基于规则设计奖励系统，包括准确性奖励（利用规则验证数学等问题答案）和格式奖励（规范推理过程格式），避免神经奖励模型的奖励破解和复杂训练问题。
- 训练模板设计：采用简单模板引导模型先输出推理过程再给出答案，避免内容偏向，便于观察模型自然进化。在 AIME 2024 训练中，模型 pass@1 分数从 15.6% 提升至 71.0%（多数投票可达 86.7%），展现强大推理能力进化，但存在可读性和语言混合等问题。
DeepSeek-R1 的进阶训练框架
- 冷启动阶段：收集数千条长链思维（CoT）冷启动数据微调 DeepSeek-V3-Base，数据通过多种方式生成并筛选，提高模型可读性和性能潜力，为后续 RL 训练奠定基础。
- 推理导向 RL 训练：在冷启动微调后进行大规模 RL 训练，针对推理任务强化能力，引入语言一致性奖励解决语言混合问题，结合推理准确性和语言奖励形成最终奖励，推动模型在推理任务上收敛。
- 拒绝采样与监督微调：从收敛的 RL 检查点进行拒绝采样收集推理数据，并结合 DeepSeek-V3 非推理领域数据生成约 800K 样本，对 DeepSeek-V3-Base 进行两周期微调，增强模型通用能力。
- 全场景 RL 训练：再次进行 RL 训练，综合规则奖励和奖励模型处理推理与通用数据，评估模型帮助性和无害性，进一步优化模型性能与偏好对齐。

三、实验设计与结果评估

评估基准与设置：在 MMLU、AIME 2024、Codeforces 等多领域基准测试及 AlpacaEval 2.0 等开放生成任务评估模型；依基准特点设置评估提示与协议，采用 pass@k 评估方法（如 pass@1 结合特定采样参数）确保可靠性能估计；对比 DeepSeek-V3、OpenAI-o1 系列等强基线模型及开源模型 QwQ-32B-Preview。
DeepSeek-R1 性能表现：在教育知识基准测试（MMLU、MMLU-Pro、GPQA Diamond）上超越 DeepSeek-V3，在 FRAMES、AlpacaEval 2.0、ArenaHard 等任务表现优异，数学和编码算法任务接近或超越顶尖模型，工程编码任务虽部分有差距但有提升空间，在 SimpleQA 等事实基准测试上也有独特表现。
蒸馏模型效果分析：将 DeepSeek-R1 蒸馏至小型模型（如基于 Qwen 和 Llama）效果显著，如 DeepSeek-R1-Distill-Qwen-7B 超越非推理模型，14B 及以上模型在多基准测试超同类开源模型，且蒸馏模型若再进行 RL 训练有望进一步提升性能。

四、研究讨论与未来展望

蒸馏与 RL 对比洞察：实验表明蒸馏强大模型至小型模型效果良好，小型模型直接 RL 训练需巨大计算资源且难达蒸馏效果；蒸馏虽经济有效，但突破智能边界仍需强大基模型和大规模 RL。
方法局限性反思：过程奖励模型（PRM）在定义推理步骤、判断中间步骤正确性及避免奖励破解上存在局限，虽有一定辅助能力但大规模 RL 中计算开销大；蒙特卡洛树搜索（MCTS）在应用于语言模型时，因搜索空间复杂、价值模型训练困难，虽能在推理时提升性能，但难以通过自搜索迭代提升模型。
未来研究方向规划：提升 DeepSeek - R1 通用能力，如函数调用、多轮交互等；解决语言混合问题，增强对多语言处理能力；优化提示工程，降低模型对提示敏感性；改进软件工程任务训练效率，通过数据采样或异步评估提升 RL 应用效果，推动模型在多方面性能提升与应用拓展。

（以上内容有豆包根据相关文章生成）

DeepSeek论文原文合集https://download.csdn.net/download/admans/90345790