放假前搞大事！DeepSeek 开源 V3.2-Exp，带自主 DSA 稀疏注意力，降 API 价还可本地部署，开发者速冲！

最新推荐文章于 2025-12-05 19:18:47 发布

原创最新推荐文章于 2025-12-05 19:18:47 发布 · 1.6k 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#开源 #deepseek

部署运行你感兴趣的模型镜像

1. 【前言】

你说说，怎么一放假Deepseek就要搞大事！！！

就在刚刚，DeepSeek-V3.2-Exp 终于开源啦！

deepseek发布推文

该模型基于此前的 DeepSeek-V3.1-Terminus 升级而来，核心亮点是引入自主研发的 DeepSeek Sparse Attention（DSA）稀疏注意力机制。作为下一代架构探索的关键中间步骤，这一首次实现的细粒度稀疏注意力机制，旨在大幅优化长文本处理的训练与推理效率。
deepseek的HG主页
下面给大家讲一讲这个新发布的DeepSeek-V3.2-Exp！

2. 【论文基本信息】

论文基本信息

论文标题：DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency
with DeepSeek Sparse Attention

作者：DeepSeek-AI

论文链接：https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

项目链接：https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

3.【细粒度稀疏注意力机制】

3.1 机制核心定义

DeepSeek-V3.2-Exp 集成的 DeepSeek Sparse Attention（DSA），是该模型的核心技术创新，其首次实现了细粒度稀疏注意力机制。作为提升大模型处理超长上下文窗口效率的关键技术之一，该机制专注于优化长文本场景下的模型性能。
DeepSeek-V3.2-Exp与V3.1-Terminus 不同长度位置 Token 的推理成本对比(左图为 Prefilling，右图为 Decoding)

3.2 核心技术优势

DSA 的核心优势在于“效率提升”与“效果稳定”的平衡。在几乎不影响模型输出效果的前提下，它能显著提升长文本处理的训练效率与推理效率，解决了传统大模型在超长上下文场景中效率低下的关键痛点。

3.3 关联模型定位

DSA 是 DeepSeek-V3.2-Exp 相对于前代模型 DeepSeek-V3.1-Terminus 的核心升级点。该新机制的引入，也让 DeepSeek-V3.2-Exp 成为 DeepSeek 下一代架构探索过程中的关键中间步骤。

3.4 性能验证逻辑

为严谨评估 DSA 对模型的影响，DeepSeek 将 DeepSeek-V3.2-Exp 的训练配置与 V3.1-Terminus 进行了严格对齐。通过公开评测集数据验证，两者综合性能基本持平，直接证明了 DSA 在提升效率的同时，能有效维持模型原有输出效果。
DeepSeek-V3.2-Exp 与 V3.1-Terminus 对齐

4.【架构】

4.1 架构核心变更

DeepSeek-V3.2-Exp 相较于前代模型 DeepSeek-V3.1-Terminus（DeepSeek-V3.1 系列的最终版本），唯一的架构修改是通过持续训练引入了 DeepSeek Sparse Attention（DSA，DeepSeek 稀疏注意力机制），未对模型其他基础架构模块进行调整。
Attention architecture of DeepSeek-V3.2-Exp

4.2 DSA 原型构成

DSA 原型主要包含两个核心组件，分别负责索引计算与token筛选，共同实现细粒度稀疏注意力功能：

组件1：Lightning Indexer（闪电索引器）
1. 功能定位：计算查询token与前文token之间的索引分数，为后续token选择提供依据，核心目标是高效筛选关键token。
2. 计算逻辑：针对查询token $h_{t}$ 与前文token $hs∈Rdh_{s} \in \mathbb{R}^{d}$ ，通过以下公式计算索引分数 $I_{t, s}$ ：
  $It,s=∑j=1HIwt,jI⋅ReLU(qt,jI⋅ksI)I_{t, s}=\sum_{j=1}^{H^{I}} w_{t, j}^{I} \cdot ReLU\left(q_{t, j}^{I} \cdot k_{s}^{I}\right)$
  其中， $H^{I}$ 代表索引器头数； $wt,jI∈Rw_{t, j}^{I} \in \mathbb{R}$ 由查询token $h_{t}$ 推导得出； $ksI∈RdIk_{s}^{I} \in \mathbb{R}^{d^{I}}$ 由前文token $h_{s}$ 推导得出。
3. 效率优化：选择 ReLU 作为激活函数以提升吞吐量；同时，索引器头数较少且支持以 FP8 精度实现，因此具备显著的计算效率优势。
组件2：Fine-Grained Token Selection Mechanism（细粒度token选择机制）
1. 筛选逻辑：基于闪电索引器为每个查询token $h_{t}$ 计算的索引分数，仅筛选出索引分数排名前 $k$ 的token对应的键值对（key-value entries）。
2. 注意力计算：查询token $h_{t}$ 仅与筛选出的稀疏键值对 ${c_{s}\}$ 进行注意力计算，得到注意力输出 $u_{t}$ ，公式如下：
  $ut=Attn(ht,{cs∣It,s∈Top−k(It,:)})u_{t}=Attn\left(h_{t},\left\{c_{s} | I_{t, s} \in Top-k\left(I_{t,:}\right)\right\}\right)$

4.3 DSA 在 MLA 架构下的实例化

为实现从 DeepSeek-V3.1-Terminus 的平滑持续训练，DSA 基于 MLA（混合注意力架构，参考 DeepSeek-AI, 2024）进行实例化，具体设计如下：

核级实现逻辑：从计算效率角度出发，每个键值对需在多个查询之间共享（参考 Yuan et al., 2025），因此 DSA 基于 MLA 的 MQA（Multi-Query Attention，多查询注意力）模式（参考 Shazeer, 2019）实现——即 MLA 中的每个潜在向量（键值对）会在查询token的所有查询头之间共享。
可视化：基于 MLA 的 DSA 架构细节可参考论文中的 Figure 1（Attention architecture of DeepSeek-V3.2-Exp）

5.【模型训练】

5.1 训练整体框架

以上下文长度128K的DeepSeek-V3.1-Terminus为基础 checkpoint，采用“持续预训练+后续训练”两阶段流程，全程对齐前者128K长上下文扩展数据分布。

5.2 持续预训练（分两阶段适配DSA）

5.2.1 密集预热阶段

任务：初始化闪电索引器，保持密集注意力，冻结其他参数；
逻辑：汇总注意力头分数并L1归一化得目标分布 $pt,:∈Rtp_{t,:} \in \mathbb{R}^{t}$ ，以KL散度损失训练索引器
（公式： $LI=∑tDKL(pt,:∥Softmax(It,:))\mathcal{L}^{I}=\sum_{t} \mathbb{D}_{KL}\left(p_{t,:} \| Softmax\left(I_{t,:}\right)\right)$ ）；
参数：学习率 $10^{-5}$ ，训练1000步（每步16个128K token序列），总训练量2.1B token。

5.2.2 稀疏训练阶段

任务：引入细粒度token选择，优化所有参数适配DSA；
逻辑：仅基于筛选token集 $St={s∣It,s∈Top−k(It,:)}S_{t}=\{s | I_{t, s} \in Top-k (I_{t,:})\}$ 对齐分布（损失公式： $LI=∑tDKL(pt,St∥Softmax(It,St))\mathcal{L}^{I}=\sum_{t} \mathbb{D}_{KL}\left(p_{t, S_{t}} \| Softmax\left(I_{t, S_{t}}\right)\right)$ ），索引器与计算图分离单独优化；
参数：学习率 $7.3 ×10^{-6}$ ，每查询token选2048个键值token，训练15000步（每步480个128K token序列），总训练量943.7B token。

5.3 后续训练

5.3.1 核心原则

沿用稀疏注意力模式，保持与DeepSeek-V3.1-Terminus一致的训练流程、算法及数据，以评估DSA影响。

5.3.2 关键模块

专家蒸馏：针对写作、通用问答及5个特定领域，微调专家模型并经大规模RL训练，生成两类训练数据，蒸馏后模型性能接近专家模型（后续RL可消除差距）；
混合RL训练：用GRPO算法，将推理、智能体、人类对齐训练合并为单RL阶段，平衡多领域性能并避免灾难性遗忘，按任务类型设计奖励机制。

6.【模型评估】

Evaluations of DeepSeek-V3.1-Terminus and DeepSeek-V3.2-Exp

6.1 模型能力评估

方式：在通用、搜索智能体、代码、数学等多领域基准测试集对比DeepSeek-V3.2-Exp与V3.1-Terminus，同时对比两者RL训练曲线。
结论：V3.2-Exp长序列效率显著提升，短/长上下文性能无大幅下降；RL训练曲线对齐，印证DSA稳定性；部分任务性能略低因推理token少，中间checkpoint可消除差距。

RL training curve of DeepSeek-V3.1-Terminus and DeepSeek-V3.2-Exp on BrowseComp and SWE Verified.

6.2 推理成本评估

复杂度：DSA将主模型核心注意力复杂度从 $O(L^2)$ 降至 $O (L k)$ （ $k≪Lk\ll L$ ），闪电索引器计算量远低于V3.1-Terminus的MLA，长上下文端到端速度提升。
实测：基于H800 GPU（时租2美元），展示预填充/解码阶段token成本随位置变化；短序列预填充用掩码MHA模拟DSA提效。

6.3 后续验证计划

内部评估效果良好，但将开展大规模真实场景测试，排查稀疏注意力架构潜在局限性。

7.【本地部署指南】

7.1 HuggingFace 部署方式

7.1.1 权重格式转换

进入推理代码所在文件夹，执行命令：
```
cd inference
```
设置专家数量环境变量（固定值为256），执行命令：
```
export EXPERTS=256
```
运行转换脚本，将 HuggingFace 格式的模型权重转换为推理演示所需格式（需替换 ${HF_CKPT_PATH} 为 HuggingFace 模型权重路径、${SAVE_PATH} 为转换后权重的保存路径、${MP} 为与可用 GPU 数量匹配的值），执行命令：
```
python convert.py --hf-ckpt-path ${HF_CKPT_PATH} --save-path ${SAVE_PATH} --n-experts ${EXPERTS} --model-parallel ${MP}
```

7.1.2 启动交互式聊天界面

设置配置文件环境变量（使用 671B 版本模型的配置文件），执行命令：
```
export CONFIG=config_671B_v3.2.json
```
启动交互式聊天界面（${MP} 需与前文设置的 GPU 数量保持一致），执行命令：
```
torchrun --nproc-per-node ${MP} generate.py --ckpt-path ${SAVE_PATH} --config ${CONFIG} --interactive
```
启动成功后，即可通过界面交互探索模型功能。

7.2 SGLang 部署方式

7.2.1 Docker 镜像安装

根据本地硬件型号，拉取对应版本的 Docker 镜像，执行对应命令：

若使用 H200 显卡：
```
docker pull lmsysorg/sglang:dsv32
```
若使用 MI350 显卡：
```
docker pull lmsysorg/sglang:dsv32-rocm
```
若使用 NPU（A2 芯片）：
```
docker pull lmsysorg/sglang:dsv32-a2
```
若使用 NPU（A3 芯片）：
```
docker pull lmsysorg/sglang:dsv32-a3
```

7.2.2 启动服务

执行如下命令启动 SGLang 服务，用于模型部署：

python -m sglang.launch_server --model deepseek-ai/DeepSeek-V3.2-Exp --tp 8 --dp 8 --page-size 64

7.3 vLLM 部署方式

vLLM 对 DeepSeek-V3.2-Exp 提供“Day-0 支持”（模型发布即兼容），具体部署步骤需参考 vLLM 官方提供的最新指南（recipes）。由于官方指南会实时更新操作细节，建议通过 vLLM 官方渠道获取对应部署代码及步骤。

顺带提一嘴：

得益于新模型服务成本的大幅降低，官方 API 价格也相应下调，新价格即刻生效！！

API
大家快来尝试一下！！

您可能感兴趣的与本文相关的镜像

ACE-Step

音乐合成

ACE-Step

ACE-Step是由中国团队阶跃星辰（StepFun）与ACE Studio联手打造的开源音乐生成模型。它拥有3.5B参数量，支持快速高质量生成、强可控性和易于拓展的特点。最厉害的是，它可以生成多种语言的歌曲，包括但不限于中文、英文、日文等19种语言