用豆包帮你逐篇快速阅读DeepSeek的8篇论文

 

《DeepSeek LLM: Scaling open-source language models with longtermism》

一、研究概述

  • 核心目标:探究语言模型缩放规律,构建并评估 DeepSeek LLM,推动开源语言模型向大规模发展,缩小与前沿模型差距。
  • 主要成果:确定新缩放法则与最优缩放策略,依此训练的 67B 模型在多基准测试中表现优异,部分超越 LLaMA - 2 70B 等,开源且为后续研究奠定基础。

二、模型构建关键要素

  • 数据处理:对 2T 双语(中英)数据精心处理。去重阶段,跨 91 个 Common Crawl 数据转储进行操作,大幅提升去重效果;过滤时,综合语言和语义评估文档质量;重混环节,调整数据平衡。采用 Byte - level Byte - Pair Encoding(BBPE)算法训练分词器,设定合适词汇量并处理特殊情况,确保数据有效转化为模型输入。
  • 架构设计:宏观上,7B 和 67B 模型在层数等方面有差异,便于训练和推理优化。微观上,遵循 LLaMA 部分设计,如 Pre - Norm 结构、SwiGLU 激活函数、Rotary Embedding 等,但用多步学习率调度器替代余弦调度器,依经验选定参数,平衡训练连续性与性能,提升训练效率和效果。
  • 超参数设定:模型用 AdamW 优化器及特定参数初始化,多步学习率调度器依训练阶段动态调整学习率,如在特定步数后按比例衰减,梯度裁剪为 1.0。依经验和实验确定不同规模模型的批量大小和学习率,如 7B 和 67B 模型在预训练时参数各异,确保训练稳定高效。

三、缩放规律探究

  • 超参数缩放:经大量实验,发现计算预算与最优批量大小、学习率呈特定幂律关系。如随计算预算增加,最优批量大小递增、学习率递减,且确定了具体公式,为不同预算下模型训练提供超参数设定指导,保证模型性能稳定提升。
  • 模型与数据缩放:引入新的模型规模表示(非嵌入 FLOPs/token M),更精准反映模型计算成本。依 IsoFLOP 方法拟合缩放曲线,得出模型和数据的最优缩放指数,可准确预测模型性能,为模型扩展提供关键理论支撑,指导资源合理分配。
  • 数据质量影响:研究表明数据质量显著影响缩放规律。高质量数据使计算预算更多分配给模型缩放,不同数据集的最优缩放策略差异可间接评估数据质量,凸显数据质量在模型训练中的核心地位,为数据筛选提供依据。

四、模型对齐与评估策略

  • 对齐方法:收集 150 万英汉语言指令数据,分有益和安全两类。先对 7B 和 67B 模型分别用 4 轮和 2 轮监督微调(SFT),监测基准准确率和重复率,对重复问题采用两阶段微调或直接偏好优化(DPO)解决;再用 DPO 训练,依有益和无害构建偏好数据,提升模型能力和对齐效果。
  • 评估方式:在多类公共基准测试中评估,含多学科选择题、语言理解推理、闭卷问答等。依任务特点采用不同评估方法,如基于困惑度的选择、生成式评估、语言建模评估等,确保全面准确衡量模型性能,为模型改进提供方向。

五、实验结果亮点

  • 基准测试成绩:在多个基准测试中,DeepSeek 67B 模型优势明显。如在 MMLU、GSM8K、HumanEval 等测试中超越 LLaMA - 2 70B,在代码、数学和推理任务表现突出;Chat 模型经微调后在多数任务提升,部分任务虽有波动,但整体性能增强,证明模型架构和训练方法有效性。
  • 开放和保留评估:在开放端评估中,DeepSeek 67B Chat 在中英文任务表现出色,超越 ChatGPT 等模型;在 LeetCode、匈牙利国家高中考试等保留测试集里,大模型优势显著,且 7B 模型在保留任务表现也有亮点,显示模型泛化和实际应用能力。
  • 安全评估表现:构建安全分类系统和 2400 题测试集,手动审查结果显示模型在多类安全测试中表现良好;用 “Do - Not - Answer” 数据集测试,得分高于 ChatGPT 和 GPT - 4,表明模型安全机制有效,符合安全应用需求。

六、研究总结与展望

  • 研究贡献:在缩放规律上取得突破,确定新模型表示和缩放策略;构建高质量数据集和有效训练模型;在多方面评估展示模型优势,为开源语言模型发展提供全面技术支持和实践经验。
  • 局限与未来:模型存在训练后知识更新、信息准确性和幻觉等问题,中文数据初期有局限。未来将发布技术报告,扩充数据集提升能力,用强化学习增强推理,持续推动开源语言模型发展。

《DeepSeek-Coder: When the Large Language Model Meets Programming - The Rise of Code Intelligence》

一、研究概述

  • 核心目标:填补开源与闭源代码模型差距,开发 DeepSeek-Coder 系列,提升代码智能处理能力,推动软件开发领域变革。
  • 主要成果:成功训练 1.3B - 33B 开源代码模型,在多代码基准测试中性能领先,部分超越闭源模型,为开发者提供有力工具,推动开源代码模型发展。

二、数据构建与处理

  • 数据来源与筛选:训练集含 87% 源代码(涵盖 87 种编程语言)、10% 英文代码相关自然语言、3% 中文自然语言。从 GitHub 采集代码,依规则过滤低质量代码,如限制行长度、字符比例等;对非代码文件依内容和字符数筛选,确保数据质量,为模型训练提供优质素材。
  • 数据增强与预处理:进行依赖解析,用拓扑排序算法处理文件间依赖,依依赖关系重排文件,保证代码逻辑连贯性;在仓库级去重,避免数据冗余;用编译器和质量模型结合启发式规则及 n - gram 过滤,去除语法错误、低质量和可能污染的数据,提升数据纯度和有效性。

三、模型训练体系

  • 训练策略
    • 多目标训练:结合下一个 token 预测和 Fill - In - the - Middle(FIM)训练。FIM 训练中,对比不同模式和参数,最终选 50% PSM 率,通过分割和重组代码片段,增强模型代码填充能力,使其能更好应对代码编写需求。
    • 优化器与超参数:采用 AdamW 优化器及特定参数,依 DeepSeek LLM 缩放定律设批量大小和学习率,学习率用三阶段策略调整,确保训练稳定高效,使模型在不同阶段有效学习。
  • 模型架构:基于 DeepSeek LLM 框架,不同规模模型(1.3B、6.7B、33B)参数有差异。用 HuggingFace 训练 BPE 分词器,采用特定架构组件,如 Rotary Position Embedding、Grouped - Query - Attention(33B 模型)和 FlashAttention v2,提升模型编码和计算效率。
  • 长上下文与指令调整:重设 RoPE 参数将上下文窗口扩至 16K,经额外训练使模型能处理长代码序列。用高质量指令数据微调 DeepSeek - Coder - Base 成 DeepSeek - Coder - Instruct,用独特标记区分对话轮次,提升模型零样本指令处理能力。

四、实验结果分析

  • 代码生成能力:在 HumanEval、MBPP、DS - 1000 等基准测试中,DeepSeek - Coder - Base 33B 平均准确率领先开源模型,如在 HumanEval 超 50%、MBPP 达 66%;经指令微调的模型在 HumanEval 超 GPT - 3.5 - Turbo,大幅缩小与 GPT - 4 差距,证明模型代码生成能力强。
  • FIM 代码完成效果:在 FIM 任务的单 - 行填充基准测试中,尽管 1.3B 模型最小,但 DeepSeek - Coder 系列表现优异,优于 StarCoder 和 CodeLlama 等,且模型性能随规模增大提升,显示 FIM 训练成效。
  • 跨文件代码完成表现:在 CrossCodeEval 跨文件代码完成任务中,DeepSeek - Coder 6.7B 表现突出,在多种编程语言测试中超越其他模型,证明仓库级预训练和架构优势,能有效处理跨文件代码场景。
  • 程序辅助数学推理成果:在 GSM8K、MATH 等 7 个数学推理基准测试中,DeepSeek - Coder 系列表现出色,33B 模型成绩突出,表明模型在通过编程解决数学问题方面有强大能力。

五、模型改进与拓展

  • 持续预训练提升:为增强自然语言和数学推理能力,从 DeepSeek - LLM - 7B Base 对 DeepSeek - Coder 进行 2T tokens 预训练成 DeepSeek - Coder - v1.5 7B。对比测试显示,新模型在数学推理和自然语言任务提升显著,证明预训练策略有效。
  • 应用与发展前景:模型在代码编写、修复、数学计算等场景应用广泛,如构建数据库和解决 LeetCode 问题示例所示。其开源且性能优,为开发者提供高效工具,有望推动软件开发智能化进程,促进代码智能领域创新发展。

《DeepSeek-VL: Towards Real-World Vision-Language Understanding》

一、研究背景与目标

  • 研究背景:大型语言模型发展促使多模态模型兴起,但开源多模态模型与专有模型在实际性能和用户体验上存在差距。多数开源模型在多模态数据利用、架构设计、语言能力保持等方面存在不足,难以满足真实世界复杂任务需求。
  • 核心目标:开发 DeepSeek-VL 模型,通过创新数据构建、架构设计和训练策略,提升模型在真实场景下视觉 - 语言理解能力,缩小与专有模型差距,推动多模态技术实用化。

二、数据构建策略

  • 多源数据收集与分类:数据分为视觉 - 语言预训练数据和监督微调数据。预训练数据涵盖交错图像 - 文本、图像字幕、表格图表、网络代码、文档 OCR、场景文本 OCR 等多类型数据,来源广泛,包括 MMC4、Wiki、Websight 等众多数据集,全面覆盖真实世界视觉和文本信息。
  • 指令调优数据构建:监督微调数据精心构建,收集真实测试案例构建分类体系,涵盖识别、转换、分析等多类别任务。从 ShareGPT4V 等开源数据集和内部高质量数据选取样本,确保数据反映实际应用场景,提升模型指令跟随和对话能力。

三、模型架构与训练流程

  • 创新架构设计
    • 混合视觉编码器:采用 SigLIP 和基于 SAM - B 的编码器组合,能处理 1024x1024 高分辨率图像。在不同分辨率下提取特征并融合,生成 576 维视觉令牌,兼顾语义和细节,为模型提供丰富视觉信息。
    • 视觉 - 语言适配器:用两层混合 MLP 连接视觉编码器和语言模型,分别处理高低分辨率特征后融合转换,促进视觉和语言信息交互,提升模型跨模态理解能力。
    • 语言模型基础:基于 DeepSeek LLM,遵循 LLaMA 部分设计,采用 Pre - Norm 结构、SwiGLU 激活函数等,保持语言处理能力优势,实现视觉 - 语言联合训练。
  • 三阶段训练流程
    • 适配器预热阶段:固定视觉编码器和语言模型,用 ShareGPT4V 图像 - 文本对和文档 OCR 渲染对训练视觉 - 语言适配器。实验表明,此阶段扩大数据规模无益,为后续训练提供基础。
    • 联合预训练阶段:冻结视觉编码器,优化语言模型和适配器。通过调整语言和多模态数据比例,发现 7:3 时能平衡语言和多模态能力,防止语言遗忘。对小模型训练采用多选择 PPL 监测和引入少量 SFT 数据,提升训练稳定性和效果。
    • 监督微调阶段:用视觉 - 语言 SFT 数据微调预训练模型,优化语言模型、适配器和视觉编码器(部分冻结),融合多模态和纯文本对话数据,增强模型对话能力。

四、模型评估与分析

  • 多基准测试评估
    • 多模态综合测试:在 MMMU、CMMMU、MMBench 等多模态理解数据集表现优异,7B 模型超越多数同规模开源模型,接近专有模型,如在 SeedBench 与 GPT - 4V 差距小,证明自然图像理解能力强。
    • 专项能力测试:在图表理解(OCRBench)、幻觉检测(POPE)、科学问题解决(ScienceQA、MathVista)等测试中表现突出,显示在特定领域任务处理能力,不过在数学逻辑方面与 GPT - 4V 仍有差距。
  • 语言基准测试对比:在 MMLU、HellaSwag、GSM8K 等语言基准测试中,DeepSeek - VL 与 DeepSeek - 7B 相当或更优,如在 MMLU 和 AGIEval 表现更好,表明多模态训练对语言任务有促进,但在数学任务(GSM8K)有一定下降,体现模态竞争关系。
  • 人工评估与消融研究
    • 人工评估优势:人工构建 100 题数据集评估,涵盖多种任务。与 InternLM - XComposer2 - VL、CogVLM 和 GPT - 4V 比较,在整体和部分任务表现佳,尤其在识别、转换和常识推理方面,且 GPT - 4V 评估中多优于开源模型。
    • 消融实验结论:通过对训练阶段、模态分组、模态预热、视觉编码器和适配器等方面消融实验,明确各组件和训练策略作用。如阶段 1 数据扩充无益、模态分组可提效、模态预热稳定训练、混合视觉编码器和特定适配器设计有效,为模型优化提供依据。

五、研究总结与展望

  • 研究贡献:提出有效视觉 - 语言预训练策略,创新混合视觉编码器和训练流程,在多基准测试和人工评估表现出色,为多模态模型研究提供新思路和实践经验。
  • 局限与未来:模型存在预训练方法局限、语言模态竞争、部分任务性能待提升等问题。未来计划扩大模型规模、引入新技术提升性能,拓展应用场景,推动多模态技术发展。

《DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model》

一、研究背景与目标

  • 研究背景:大型语言模型发展迅速,但面临训练成本高、推理效率低等问题,限制其广泛应用。现有模型在平衡性能、成本和效率方面存在不足,难以满足实际需求。
  • 核心目标:研发 DeepSeek-V2 模型,利用创新架构(如 Multi-head Latent Attention 和 DeepSeekMoE)实现经济高效训练与推理,在保持强大性能同时降低成本、提高效率,推动语言模型技术进步。

二、模型架构创新

  • Multi-head Latent Attention(MLA)
    • 核心机制:针对传统 Multi-Head Attention(MHA)在推理时 Key-Value(KV)缓存大的问题,MLA 采用低秩键值联合压缩。通过特定投影矩阵将键值压缩为低维潜在向量,大幅减少 KV 缓存,同时不影响性能,如在推理时缓存元素大幅减少。
    • 辅助策略:为减少训练激活内存,对查询进行低秩压缩;针对 Rotary Position Embedding(RoPE)与低秩 KV 压缩不兼容问题,提出 decoupled RoPE 策略,用额外多头查询和共享键携带 RoPE,确保模型高效运行。
  • DeepSeekMoE
    • 架构优势:在 Feed-Forward Networks(FFNs)采用 DeepSeekMoE 架构,细分专家提高专业化和知识获取能力,隔离共享专家减少冗余。相比传统 MoE 架构,在相同参数下性能更优。
    • 优化机制:设计设备受限路由机制控制通信成本,确保每个 token 目标专家分布在有限设备上;引入专家级、设备级和通信平衡辅助损失,防止路由崩溃、平衡计算和通信;采用设备级 token-dropping 策略缓解负载不平衡计算浪费,提升训练效率。

三、模型训练与评估

  • 训练设置
    • 数据与参数:预训练数据含 8.1T 高质量多源 tokens,中文数据量增加且质量提升,采用特定分词器。模型设 60 层、5120 隐藏维度等参数,总 236B 参数,21B/token 激活,用 AdamW 优化器及特定学习率、批处理等策略训练。
    • 基础设施与长上下文扩展:基于 HAI-LLM 框架,采用多种并行技术和优化手段训练,如 16 路零气泡管道并行、8 路专家并行等。用 YaRN 扩展上下文窗口至 128K,经额外训练和参数调整确保长上下文性能。
  • 评估结果
    • 基准测试性能:在 MMLU、BBH、HumanEval 等多基准测试中,21B 激活参数的 DeepSeek-V2 显著优于 DeepSeek 67B 等模型,在英语、代码、数学和中文任务表现出色,如在 MMLU 准确率高,在代码和数学基准测试与同类模型可比或更优。
    • 训练与推理效率:训练成本上,相比 DeepSeek 67B 节省 42.5%,因激活参数少和优化措施提高了 Model FLOPs Utilization(MFU);推理效率方面,经参数转换和 KV 缓存量化,生成吞吐量达 DeepSeek 67B 的 5.76 倍,输入吞吐量超 100K tokens / 秒。

四、模型对齐与优化

  • 监督微调(SFT):用 1.5M 高质量指令调优数据(含 1.2M 有益和 0.3M 安全实例)对 DeepSeek-V2 微调 2 轮,学习率 5x10-6。在多基准测试评估,在数学和代码相关任务提升显著,如在 GSM8K、MATH 和 HumanEval 表现更好。
  • 强化学习(RL)
    • 算法与策略:采用 Group Relative Policy Optimization(GRPO)算法,分推理对齐和人类偏好对齐两阶段训练。收集多源偏好数据训练奖励模型,用混合引擎、vLLM 等优化训练效率,确保模型与人类偏好对齐。
    • 评估效果:在标准和开放端基准测试评估,Chat(RL)版在数学和代码任务比 Chat(SFT)版更强,在英语和中文开放端对话生成表现优异,如在 MT-Bench 和 AlpacaEval 2.0 得分高,在中文 AlignBench 表现突出,但推理能力与顶级模型仍有差距。

五、研究总结与展望

  • 研究贡献:DeepSeek-V2 凭借创新架构在性能、成本和效率上取得突破,在多方面评估表现优异,为语言模型发展提供新方向,证明了混合专家架构和相关优化策略的有效性。
  • 局限与未来:模型存在知识更新、信息准确性和语言局限性等问题。未来将探索扩大 MoE 模型规模、提升多模态支持能力、增强模型安全性和可靠性,推动语言模型向通用人工智能目标迈进。

《DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source
Models in Code Intelligence》

一、研究概述与核心贡献

  • 研究背景与目标:在开源代码模型蓬勃发展但仍落后于闭源竞品的背景下,DeepSeek-Coder-V2 应运而生。其目标是通过创新架构与大规模训练,在代码智能的各关键维度实现性能飞跃,缩小与 GPT4-Turbo 等行业领先者的差距,为开源社区注入强大动力。
  • 主要成果与创新点:基于 DeepSeek-V2 拓展而来,拥有 16B 和 236B 两种参数规模,独特的混合专家(MoE)架构使其在激活参数效率上表现卓越,分别仅需 2.4B 和 21B。它率先突破开源百亿元参数代码模型瓶颈,支持多达 338 种编程语言,将上下文长度延伸至 128K tokens,为复杂编程任务提供强大支撑,在代码生成、修复、推理及数学运算等多方面达到或接近闭源顶尖水平,且秉持开源精神促进广泛应用与创新。

二、数据构建:深度与广度的融合

  • 数据来源多元化:预训练数据精心打造,60% 源自 GitHub 和 CommonCrawl 的海量源代码,经严格筛选与去重涵盖 338 种编程语言;10% 的数学语料挖掘自 CommonCrawl,规模近乎翻倍;30% 自然语言语料巧妙取材于 DeepSeek-V2,确保语言知识传承。如此多元组合为模型奠定坚实知识基础,适应多领域编程需求。
  • 数据处理精细化:对 GitHub 代码运用精细规则筛选,如严格把控行长度、字符构成比例,精准去除低质量和冗余数据;从 CommonCrawl 收集数据时,借助 fastText 模型与 BPE 分词器协同,依多轮迭代策略精准捕捉代码与数学相关网页,提升数据相关性与纯度,消融实验有力证实新数据体系对模型性能的显著提升效能。

三、训练体系:策略与架构的协同进化

  • 训练策略双轨驱动:16B 模型采用 Next-Token-Prediction 与 Fill-In-Middle(FIM)双策略,FIM 以 0.5 比例在 PSM 模式下高效重组代码,激发模型代码补全创造力;236B 模型聚焦 Next-Token-Prediction,集中力量提升语言生成精准度,二者策略适配不同规模与应用场景,优化训练效果。
  • 架构超参优化升级:架构紧密承袭 DeepSeek-V2 并优化,16B 和 236B 模型精准对接对应版本超参数。针对训练不稳定果断回归传统归一化,依循 DeepSeek-V2 设定 AdamW 优化器参数,精心调整批量与学习率,采用余弦衰减精细规划学习率走势,保障训练平稳高效,促进模型能力持续进阶。
  • 长上下文与对齐强化:借助 Yarn 技术成功拓展上下文至 128K,分阶段训练强化长序列处理专长,测试验证全阶段性能卓越。对齐阶段先构建混合指令集微调和强化学习两步走,GRPO 算法主导强化学习,深度挖掘多源数据生成优质提示与奖励信号,训练专用奖励模型精准引导,全方位提升模型编程任务表现。

四、实验结果:多领域性能卓越彰显实力

  • 代码生成卓越表现:在 HumanEval 和 MBPP 基准测试中,DeepSeek-Coder-V2-Instruct 以 75.3% 平均得分紧逼顶尖闭源模型,多语言生成优势尽显;在 LiveCodeBench 和 USACO 实战评估里,与 GPT-4o 并列高分梯队,复杂编程难题应对自如,彰显强大代码创作实力。
  • 代码完成高效精准:RepoBench 仓库级任务中,DeepSeek-Coder-V2-Lite-Base 以少胜多,Python 和 Java 代码完成效率与大模型相当;Fill-in-the-Middle 任务中,其在多语言测试表现卓越,精准填充代码空位,有力提升编程效率。
  • 代码修复智能领先:在 Defects4J、SWE-bench 和 Aider 修复测试中,DeepSeek-Coder-V2-Instruct 于 Aider 数据集独占鳌头,远超开源同行,逼近闭源水准,在自动化代码修复领域展现领先智能。
  • 代码理解推理突破:CRUXEval 推理测试中,虽与闭源巨头有距,但在开源阵营脱颖而出,展现扎实代码理解与推理功底,为复杂编程逻辑处理提供有力支持。
  • 数学推理实力强劲:在 GSM8K、MATH 等数学基准测试中,DeepSeek-Coder-V2 成绩斐然,MATH 测试 75.7% 准确率直逼 GPT-4o,AIME 2024 竞赛解题能力出众,凸显强大数学思维与解题能力,赋能编程中数学难题求解。
  • 自然语言能力传承:依托 DeepSeek-V2,DeepSeek-Coder-V2 自然语言能力出色,在 MMLU、BBH 等标准测试及 Arena-Hard 等开放式任务中表现优异,虽不同规模模型在各测试中表现有别,但整体展现良好语言理解与生成能力,实现代码与语言能力协同发展。

五、研究总结与未来展望

  • 研究总结:DeepSeek-Coder-V2 成功突破开源代码模型瓶颈,凭借大规模训练与创新架构,在代码智能核心领域性能卓越,有力推动开源代码技术发展,为开发者提供高效工具。
  • 未来方向:尽管成果显著,但指令跟随能力与顶尖模型差距指明改进方向。后续研究将聚焦强化此能力,深度优化模型架构与训练策略,提升复杂编程场景适应性,进一步释放代码智能潜力,助力软件开发智能化变革。

《DeepSeek-Prover-V1.5:Harnessing Proof Assistant Feedback
for Reinforcement Learning and Monte-Carlo Tree Search》

一、研究核心目标与创新成果

  • 核心目标:聚焦于攻克 Lean 4 环境下形式定理证明难题,全力提升语言模型在此领域的推理与证明能力,缩小与理想性能间的差距。
  • 关键创新与成果:成功研发 DeepSeek-Prover-V1.5,整合大规模数学预训练、创新数据集构建、强化学习及蒙特卡洛树搜索等前沿技术。在高中级 miniF2F 和本科级 ProofNet 基准测试中成绩斐然,单遍全证明生成和树搜索策略下分别达到 63.5% 和 25.3% 的通过率,远超先前模型,引领形式定理证明技术革新。

二、模型训练架构与策略

  • 预训练强化基础:基于 DeepSeekMath-Base 深度预训练,聚焦形式数学语言,融入 Lean、Isabelle、Metamath 等专业数据,筑牢模型形式证明与数学推理根基,提升对复杂数学结构和逻辑的理解与处理能力。
  • 监督微调优化提升:精心打造 Lean 4 代码补全数据集,运用专家迭代生成证明数据,并借 DeepSeek-Coder V2 236B 为证明代码添加自然语言注释与中间策略状态信息。经 9B tokens 训练,有效弥合自然语言与形式证明鸿沟,增强模型对证明任务的适应性与准确性。
  • 强化学习精准校准:采用 GRPO 算法,依 Lean 4 证明器验证结果为奖励反馈,深度优化模型,使其紧密契合形式规范,增强证明策略有效性与可靠性,显著提升模型在复杂定理证明场景中的表现。

三、蒙特卡洛树搜索创新机制

  • 战术级树抽象构建:创新引入证明树抽象,依截断 - 恢复机制拆解证明为树节点序列,精准定义状态与行动空间。于节点存储等效战术代码,依 Lean 证明器状态信息智能选择与扩展节点,为证明搜索提供高效架构支撑。
  • 交互式证明流程设计:融合蒙特卡洛树搜索四步骤于证明生成,精心设计选择、扩展、模拟与反向传播环节。选择阶段依 UCB 算法权衡探索 - 利用,扩展阶段依模型生成战术并验证更新树结构,反向传播阶段依结果更新节点值,借内在奖励机制驱动探索,优化证明搜索路径。
  • 并行化高效加速:多维度并行优化 MCTS,根并行部署多 runners 与异步处理机制提升并发,树并行用多线程平衡任务负载,虚拟损失策略鼓励节点探索,全方位提升搜索效率,减少计算时间。

四、实验结果深度洞察

  • 基准测试卓越表现:在 miniF2F 和 ProofNet 基准测试中,单遍全证明生成时 DeepSeek-Prover-V1.5-RL 成绩出众,树搜索策略下更创新高。如在 miniF2F 测试集以 63.5% 通过率超同类模型,彰显模型强大推理与证明能力。
  • 训练策略效果验证:大规模采样下,强化学习显著增强模型能力,与 RMaxTS 协同增效。自然语言思维链(CoT)模式优势随样本量递增,混合策略结合 CoT 与非 CoT 模式进一步提升性能,证明多策略融合的有效性。
  • RMaxTS 组件剖析:消融实验表明,RMaxTS 中内在奖励与折扣 UCB 机制对探索不可或缺,缺一则性能骤降;战术状态信息引导对树搜索性能提升关键,缺失会致性能下滑,凸显各组件在证明搜索中的核心作用。

五、研究总结与未来展望

  • 研究总结:DeepSeek-Prover-V1.5 凭借创新架构与训练策略,在 Lean 4 形式定理证明领域达领先水平,为定理证明自动化提供有力工具,推动人工智能数学推理发展。
  • 未来方向:后续将聚焦训练评估不完全证明的批评模型,优化证明搜索分支裁剪;增强模型对复杂 Lean 文件的理解与处理能力,拓展应用范围;持续探索新算法与架构,提升模型性能与通用性,助力形式定理证明技术迈向新高度。

《DeepSeek-V3 Technical Report》

一、研究概述与核心创新

  • 研究背景与目标:在大语言模型快速迭代、开源与闭源竞争激烈的背景下,DeepSeek-V3 应运而生。其旨在通过创新架构与训练策略,突破现有模型局限,提升性能并降低成本,缩小与通用人工智能差距,增强开源模型竞争力。
  • 关键创新成果:创新采用无辅助损失负载均衡策略与多令牌预测训练目标,有效提升模型性能与训练效率。基于 671B 参数(37B / 令牌激活)的混合专家架构,在多领域基准测试中表现卓越,超越多数开源模型,接近顶尖闭源模型,且训练成本经济高效(2.788M H800 GPU 小时),训练过程稳定。

二、模型架构深度解析

  • 基础架构优化
    • 多头潜在注意力(MLA)机制:通过低秩联合压缩注意力键值对,大幅减少推理时 KV 缓存,同时保持性能与传统多头注意力相当,还对查询进行低秩压缩降低训练激活内存,优化注意力计算流程。
    • DeepSeekMoE 架构改进:采用细粒度专家与共享专家机制,引入无辅助损失负载均衡策略,动态调整专家偏差项实现负载均衡,辅以序列级辅助损失防止极端不平衡,结合节点限制路由和无令牌丢弃技术,提升训练效率与模型稳定性。
  • 多令牌预测(MTP)策略:创新性地将预测范围扩展到多个未来令牌,通过顺序预测模块保持因果链完整,计算交叉熵损失作为额外训练目标,提升数据效率与模型预测能力,且在推理时可灵活应用于推测解码提升效率。

三、基础设施高效支撑

  • 计算集群与训练框架协同:依托 2048 个 H800 GPU 集群,采用 HAI-LLM 框架,结合 16 路管道并行、64 路专家并行和 ZeRO-1 数据并行技术,并通过 DualPipe 算法优化管道并行,减少气泡与通信开销;定制高效跨节点通信内核,充分利用带宽;采用多种内存优化技术,降低内存占用,实现高效训练。
  • FP8 训练创新实践:构建 FP8 混合精度训练框架,多数计算采用 FP8 精度加速训练并减少内存消耗,关键操作保留高精密确保稳定性;引入细粒度量化、提高积累精度、优化尾数指数策略及在线量化技术,有效扩展 FP8 动态范围,降低量化误差,提升训练精度。
  • 推理部署优化策略:在 H800 集群部署,预填充与解码阶段分离。预填充阶段采用特定并行组合与冗余专家策略提升效率与负载均衡,解码阶段优化专家选择与通信方式,探索动态冗余与多批次处理,增强吞吐量与性能。

四、预训练关键环节

  • 数据构建与处理:优化预训练语料,提升数学和编程样本比例,扩展多语言覆盖,采用文档打包与 FIM 策略,增强数据完整性与模型能力;使用 128K 词汇量的字节级 BPE 分词器,优化多语言压缩,处理特殊令牌偏差。
  • 超参数精细设置:模型层面,设置 61 层、7168 隐藏维度等参数,确定 MLA 和 MoE 架构细节;训练层面,采用 AdamW 优化器,依阶段动态调整学习率、批量大小等参数,合理配置负载均衡与 MTP 相关参数,保障训练效果。
  • 长上下文扩展实现:借鉴 DeepSeek-V2 方法,运用 YaRN 技术分两阶段将上下文窗口从 4K 扩展到 128K,在长上下文测试中性能优异,增强模型处理长序列能力。
  • 评估体系与结果分析:在多类基准测试中评估,涵盖语言、数学、代码等领域,DeepSeek-V3-Base 表现突出,超越同类开源模型;消融实验验证 MTP 和无辅助损失平衡策略有效,且分析了不同负载平衡方式对模型性能与专家专业化的影响。

五、后训练优化提升

  • 监督微调(SFT)策略:构建 1.5M 多领域指令调优数据集,推理数据经 DeepSeek-R1 模型生成与处理后筛选,非推理数据由 DeepSeek-V2.5 生成并人工验证;采用特定学习率调度对模型微调两周期,优化样本打包与掩码策略。 
  • 强化学习(RL)机制:结合规则和模型奖励机制,对有明确规则的问题采用规则验证,对自由形式答案问题训练奖励模型,并构建包含思维链的偏好数据增强可靠性;运用 Group Relative Policy Optimization(GRPO)算法,采样多组输出优化策略模型,融入多领域提示提升性能。
  • 综合评估与分析:在新增基准测试上评估聊天模型,与多基线模型对比,全面展示模型性能;通过消融实验验证 FP8 训练框架优势及分析块量化问题,为模型优化提供依据。

六、研究总结与未来展望

  • 研究总结:DeepSeek-V3 在架构、训练与优化策略上取得重大创新,性能优异且训练成本低,为开源语言模型发展注入强大动力,在多领域展现出巨大应用潜力。
  • 未来方向:持续探索模型架构改进,如优化注意力与专家机制;深化训练技术研究,提升低精度训练效果;拓展应用场景,加强在复杂任务和多语言环境下的性能优化,推动语言模型技术迈向新高度。

《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via
Reinforcement Learning》

  • 核心目标:在大语言模型快速发展背景下,聚焦于利用强化学习(RL)提升模型推理能力,突破传统监督微调(SFT)的依赖,探索模型自主进化路径,并将推理能力迁移至小型模型,增强模型在多领域推理任务中的性能。
  • 关键创新:首次实现无 SFT 预训练的 DeepSeek-R1-Zero,验证了纯 RL 激发推理能力的可行性;提出 DeepSeek-R1 多阶段训练框架,融合冷启动数据与多次 RL 和 SFT 过程,有效提升性能;成功将 DeepSeek-R1 推理能力蒸馏至小型模型,开源多个蒸馏模型,显著提升小型模型推理基准测试成绩。

二、模型训练方法与技术路径

  • DeepSeek-R1-Zero 的 RL 训练
    • RL 算法选择:采用 Group Relative Policy Optimization(GRPO)算法,摒弃传统等大的 critic 模型,依据组分数估计基线,通过采样输出优化策略模型,降低训练成本,提高训练效率。
    • 奖励模型构建:基于规则设计奖励系统,包括准确性奖励(利用规则验证数学等问题答案)和格式奖励(规范推理过程格式),避免神经奖励模型的奖励破解和复杂训练问题。
    • 训练模板设计:采用简单模板引导模型先输出推理过程再给出答案,避免内容偏向,便于观察模型自然进化。在 AIME 2024 训练中,模型 pass@1 分数从 15.6% 提升至 71.0%(多数投票可达 86.7%),展现强大推理能力进化,但存在可读性和语言混合等问题。
  • DeepSeek-R1 的进阶训练框架
    • 冷启动阶段:收集数千条长链思维(CoT)冷启动数据微调 DeepSeek-V3-Base,数据通过多种方式生成并筛选,提高模型可读性和性能潜力,为后续 RL 训练奠定基础。
    • 推理导向 RL 训练:在冷启动微调后进行大规模 RL 训练,针对推理任务强化能力,引入语言一致性奖励解决语言混合问题,结合推理准确性和语言奖励形成最终奖励,推动模型在推理任务上收敛。
    • 拒绝采样与监督微调:从收敛的 RL 检查点进行拒绝采样收集推理数据,并结合 DeepSeek-V3 非推理领域数据生成约 800K 样本,对 DeepSeek-V3-Base 进行两周期微调,增强模型通用能力。
    • 全场景 RL 训练:再次进行 RL 训练,综合规则奖励和奖励模型处理推理与通用数据,评估模型帮助性和无害性,进一步优化模型性能与偏好对齐。

三、实验设计与结果评估

  • 评估基准与设置:在 MMLU、AIME 2024、Codeforces 等多领域基准测试及 AlpacaEval 2.0 等开放生成任务评估模型;依基准特点设置评估提示与协议,采用 pass@k 评估方法(如 pass@1 结合特定采样参数)确保可靠性能估计;对比 DeepSeek-V3、OpenAI-o1 系列等强基线模型及开源模型 QwQ-32B-Preview。
  • DeepSeek-R1 性能表现:在教育知识基准测试(MMLU、MMLU-Pro、GPQA Diamond)上超越 DeepSeek-V3,在 FRAMES、AlpacaEval 2.0、ArenaHard 等任务表现优异,数学和编码算法任务接近或超越顶尖模型,工程编码任务虽部分有差距但有提升空间,在 SimpleQA 等事实基准测试上也有独特表现。
  • 蒸馏模型效果分析:将 DeepSeek-R1 蒸馏至小型模型(如基于 Qwen 和 Llama)效果显著,如 DeepSeek-R1-Distill-Qwen-7B 超越非推理模型,14B 及以上模型在多基准测试超同类开源模型,且蒸馏模型若再进行 RL 训练有望进一步提升性能。

四、研究讨论与未来展望

  • 蒸馏与 RL 对比洞察:实验表明蒸馏强大模型至小型模型效果良好,小型模型直接 RL 训练需巨大计算资源且难达蒸馏效果;蒸馏虽经济有效,但突破智能边界仍需强大基模型和大规模 RL。 
  • 方法局限性反思:过程奖励模型(PRM)在定义推理步骤、判断中间步骤正确性及避免奖励破解上存在局限,虽有一定辅助能力但大规模 RL 中计算开销大;蒙特卡洛树搜索(MCTS)在应用于语言模型时,因搜索空间复杂、价值模型训练困难,虽能在推理时提升性能,但难以通过自搜索迭代提升模型。
  • 未来研究方向规划:提升 DeepSeek - R1 通用能力,如函数调用、多轮交互等;解决语言混合问题,增强对多语言处理能力;优化提示工程,降低模型对提示敏感性;改进软件工程任务训练效率,通过数据采样或异步评估提升 RL 应用效果,推动模型在多方面性能提升与应用拓展。

(以上内容有豆包根据相关文章生成) 

DeepSeek论文原文合集https://download.csdn.net/download/admans/90345790 

豆包、Kimi 和 DeepSeek 是中国市场上几个知名的 AI 工具,各自有着不同的特点和服务。 ### 关于豆包 豆包是一款多功能的人工智能助手,因其便捷的功能和友好的用户界面受到了广泛的欢迎。对于刚开始接触AI创作的用户来说,可能会更喜欢使用豆包提供的图像生成功能。此外,豆包还开发了浏览器插件,提供了诸如AI搜索、音乐生成、网页内容总结等功能,以增强用户体验。 ### 关于 Kimi Kimi 则是在内容生成的速度上有显著的优势,适合那些追求快速产出高质量内容的用户。它在智能化和个性化方面表现出色,尤其适用于创意作等领域。然而,在处理较为复杂的感情问题时,Kimi的表现可能不如预期那么理想,所生成的内容会显得比较保守和平淡无奇。 ### 关于 DeepSeek 副业 DeepSeek 最初作为一个强大的搜索引擎出现,并渐发展出自己的大模型系列,例如从 V3 升级至 R1 版本的大规模预训练模型。随着时间的发展,DeepSeek 不断改进自身能力,在内容总结及文字生成等方面取得了长足的进步。尽管最初版本的功能丰富度有所欠缺,但随着不断的迭代更新,DeepSeek 的性能得到了极大的提升,成为了一个值得信赖的选择之一。 需要注意的是,“副业”这个词在这里可能是指除了主要功能之外的服务或者扩展服务。如果是这种情况,以上提到的各种附加特性如浏览器集成、特定领域的优化等都可以视为这些平台所提供的“副业”。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

JackieZhengChina

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值