DeepSpec-DSpark
文章平均质量分 95
happyprince
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
08_DeepSpec-DSpark-实验复现_论文对照与流程详解
本篇是用户特别强调"要详细、要单独成节"的实验文档,按 DSpark 论文 Section 4–5 全面对照。前序已讲清代码实现,本篇回答"如何用这套代码复现论文实验"。共 8 节,每节配 Mermaid 流程图与文字说明,含完整命令矩阵、文件清单与踩坑清单。原创 2026-07-01 15:48:25 · 8 阅读 · 0 评论 -
07_评测系统_拒绝采样与校准
target_layer_ids 不能包含 target 模型最后一层。原因:transformers 的存的是归一化后的 final hidden(即),而 target cache 存的是 raw decoder output。如果包含最后一层,eval 时取到的 hidden 与 cache 中的不一致,会导致 draft 输入分布偏移、acceptance rate 大幅下降。原创 2026-07-01 15:47:52 · 18 阅读 · 0 评论 -
06_DeepSpec-DSpark-训练框架_FSDP与BF16优化器
本篇在总分总中是"分"的训练侧深度拆解。DSpark 训练的难点不在算法(已在讲清),而在工程:如何用 8 卡 GPU 把 5 层 draft 模型训到收敛、如何在 bf16 下稳定优化、如何应对 hfai 抢占式调度、如何恢复训练。本篇拆解10 步初始化、训练循环、FSDP 分片、BF16 master 权重、checkpoint 保存/恢复。原创 2026-06-30 00:34:17 · 166 阅读 · 0 评论 -
05_DeepSpec-DSpark-数据管道_TargetCache与对话模板
本文介绍了DeepSpec训练中的关键数据管道技术——TargetCache与对话模板处理。数据生成流程分为三步:首先下载并标准化开源数据集,其次使用sglang服务重新生成回答以保证数据一致性,最后通过target模型的forward hook机制预计算多层hidden states并缓存至磁盘(约38TB)。核心创新在于将target模型的中间状态预存为缓存,大幅降低训练时的计算开销。文章详细解析了数据预处理、多服务器负载均衡、异步缓存写入等关键技术实现,并展示了完整的流程图与代码结构。这种数据管道设计原创 2026-06-30 05:45:00 · 57 阅读 · 0 评论 -
04_DeepSpec-DSpark-Eagle3建模_TTT与Triton融合Loss
本篇对照解析 Eagle3 的实现差异。Eagle3 是基于改写的自回归 drafter,采用 Test-Time Training (TTT) 风格的多步循环采样。本篇重点讲清楚:① TTT 循环如何工作;② 为什么必须用 Triton 融合 log-softmax loss;③ Eagle3 与 DSpark 的核心架构差异表。原创 2026-06-30 00:31:29 · 161 阅读 · 0 评论 -
03_DeepSpec-DSpark-DSpark建模_Markov与Confidence
本篇是 DSpark 实现的核心拆解,对应论文 Section 3.1(Semi-Autoregressive Generation)、3.2.1(Confidence Head)、3.3(Training)。DSpark 是 DeepSpec 的主角算法,本篇从 forward 13 步流程、anchor 采样、block attention mask、三种 Markov head、confidence head 输入构造、loss 三项加权 6 个维度逐一拆解。配套对照自回归范式。原创 2026-06-29 01:36:51 · 236 阅读 · 0 评论 -
02_DeepSpec-DSpark-核心原理_推测解码与draft模型
DeepSpec架构设计与核心思想 DeepSpec采用分层架构设计,将"训练推测draft模型"抽象为可配置的三件套:配置选择算法、模型实现算法、训练/评估编排算法。系统分为五层: 基础工具层(utils) 数据处理层(data) 模型层(modeling) 训练评估层(trainer/eval) 脚本层(scripts) 核心思想是通过配置驱动和统一抽象支持多种算法(DSpark/DFlash/Eagle3)。所有Trainer派生自BaseTrainer,Evaluator派生自BaseEvaluat原创 2026-06-29 01:36:14 · 159 阅读 · 0 评论 -
01_DeepSpec-DSpark-整体架构与设计理念
DeepSpec架构设计与核心思想 DeepSpec采用分层架构设计,将"训练推测draft模型"抽象为可配置的三件套:配置选择算法、模型实现算法、训练/评估编排算法。系统分为五层: 基础工具层(utils) 数据处理层(data) 模型层(modeling) 训练评估层(trainer/eval) 脚本层(scripts) 核心思想是通过配置驱动和统一抽象支持多种算法(DSpark/DFlash/Eagle3)。所有Trainer派生自BaseTrainer,Evaluator派生自BaseEvaluat原创 2026-06-29 01:34:46 · 173 阅读 · 0 评论 -
00_DeepSpec-DSpark总览_项目地图与阅读指南
DeepSpec项目总览:训练与评测推测解码draft模型的全栈框架 DeepSpec是由DeepSeek与北京大学联合开源的项目(2026年6月发布),基于MIT协议,包含DSpark、DFlash和Eagle3三种draft算法,支持Qwen/Gemma等目标模型。项目通过"数据准备→训练→评测"三阶段流程,训练后的draft模型可提升推理速度60%-85%。代码库采用模块化设计,核心包括数据管道、训练框架和评测系统,支持FSDP分布式训练。文档采用"总分总"结构,提供从算法原理到实验复现的完整指南。原创 2026-06-29 01:33:00 · 219 阅读 · 0 评论
分享