放假前搞大事!DeepSeek 开源 V3.2-Exp,带自主 DSA 稀疏注意力,降 API 价还可本地部署,开发者速冲!

部署运行你感兴趣的模型镜像

1. 【前言】

你说说,怎么一放假Deepseek就要搞大事!!!

就在刚刚,DeepSeek-V3.2-Exp 终于开源啦!

deepseek发布推文

该模型基于此前的 DeepSeek-V3.1-Terminus 升级而来,核心亮点是引入自主研发的 DeepSeek Sparse Attention(DSA)稀疏注意力机制。作为下一代架构探索的关键中间步骤,这一首次实现的细粒度稀疏注意力机制,旨在大幅优化长文本处理的训练与推理效率。
deepseek的HG主页
下面给大家讲一讲这个新发布的DeepSeek-V3.2-Exp

2. 【论文基本信息】

论文基本信息

论文标题:DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency
with DeepSeek Sparse Attention

作者:DeepSeek-AI

论文链接:https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

项目链接:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

3.【细粒度稀疏注意力机制】

3.1 机制核心定义

DeepSeek-V3.2-Exp 集成的 DeepSeek Sparse Attention(DSA),是该模型的核心技术创新,其首次实现了细粒度稀疏注意力机制。作为提升大模型处理超长上下文窗口效率的关键技术之一,该机制专注于优化长文本场景下的模型性能。
DeepSeek-V3.2-Exp与V3.1-Terminus 不同长度位置 Token 的推理成本对比(左图为 Prefilling,右图为 Decoding)

3.2 核心技术优势

DSA 的核心优势在于“效率提升”与“效果稳定”的平衡。在几乎不影响模型输出效果的前提下,它能显著提升长文本处理的训练效率与推理效率,解决了传统大模型在超长上下文场景中效率低下的关键痛点。

3.3 关联模型定位

DSA 是 DeepSeek-V3.2-Exp 相对于前代模型 DeepSeek-V3.1-Terminus 的核心升级点。该新机制的引入,也让 DeepSeek-V3.2-Exp 成为 DeepSeek 下一代架构探索过程中的关键中间步骤。

3.4 性能验证逻辑

为严谨评估 DSA 对模型的影响,DeepSeek 将 DeepSeek-V3.2-Exp 的训练配置与 V3.1-Terminus 进行了严格对齐。通过公开评测集数据验证,两者综合性能基本持平,直接证明了 DSA 在提升效率的同时,能有效维持模型原有输出效果。
DeepSeek-V3.2-Exp 与 V3.1-Terminus 对齐

4.【架构】

4.1 架构核心变更

DeepSeek-V3.2-Exp 相较于前代模型 DeepSeek-V3.1-Terminus(DeepSeek-V3.1 系列的最终版本),唯一的架构修改是通过持续训练引入了 DeepSeek Sparse Attention(DSA,DeepSeek 稀疏注意力机制),未对模型其他基础架构模块进行调整。
Attention architecture of DeepSeek-V3.2-Exp

4.2 DSA 原型构成

DSA 原型主要包含两个核心组件,分别负责索引计算与token筛选,共同实现细粒度稀疏注意力功能:

  • 组件1:Lightning Indexer(闪电索引器)

    1. 功能定位:计算查询token与前文token之间的索引分数,为后续token选择提供依据,核心目标是高效筛选关键token。
    2. 计算逻辑:针对查询token hth_{t}ht 与前文token hs∈Rdh_{s} \in \mathbb{R}^{d}hsRd,通过以下公式计算索引分数 It,sI_{t, s}It,s
      It,s=∑j=1HIwt,jI⋅ReLU(qt,jI⋅ksI)I_{t, s}=\sum_{j=1}^{H^{I}} w_{t, j}^{I} \cdot ReLU\left(q_{t, j}^{I} \cdot k_{s}^{I}\right)It,s=j=1HIwt,jIReLU(qt,jIksI)
      其中,HIH^{I}HI 代表索引器头数;wt,jI∈Rw_{t, j}^{I} \in \mathbb{R}wt,jIR 由查询token hth_{t}ht 推导得出;ksI∈RdIk_{s}^{I} \in \mathbb{R}^{d^{I}}ksIRdI 由前文token hsh_{s}hs 推导得出。
    3. 效率优化:选择 ReLU 作为激活函数以提升吞吐量;同时,索引器头数较少且支持以 FP8 精度实现,因此具备显著的计算效率优势。
  • 组件2:Fine-Grained Token Selection Mechanism(细粒度token选择机制)

    1. 筛选逻辑:基于闪电索引器为每个查询token hth_{t}ht 计算的索引分数,仅筛选出索引分数排名前 kkk 的token对应的键值对(key-value entries)。
    2. 注意力计算:查询token hth_{t}ht 仅与筛选出的稀疏键值对 {cs}\{c_{s}\}{cs} 进行注意力计算,得到注意力输出 utu_{t}ut,公式如下:
      ut=Attn(ht,{cs∣It,s∈Top−k(It,:)})u_{t}=Attn\left(h_{t},\left\{c_{s} | I_{t, s} \in Top-k\left(I_{t,:}\right)\right\}\right)ut=Attn(ht,{csIt,sTopk(It,:)})

4.3 DSA 在 MLA 架构下的实例化

为实现从 DeepSeek-V3.1-Terminus 的平滑持续训练,DSA 基于 MLA(混合注意力架构,参考 DeepSeek-AI, 2024)进行实例化,具体设计如下:

  • 核级实现逻辑:从计算效率角度出发,每个键值对需在多个查询之间共享(参考 Yuan et al., 2025),因此 DSA 基于 MLA 的 MQA(Multi-Query Attention,多查询注意力)模式(参考 Shazeer, 2019)实现——即 MLA 中的每个潜在向量(键值对)会在查询token的所有查询头之间共享。
  • 可视化:基于 MLA 的 DSA 架构细节可参考论文中的 Figure 1(Attention architecture of DeepSeek-V3.2-Exp)

5.【模型训练】

5.1 训练整体框架

以上下文长度128K的DeepSeek-V3.1-Terminus为基础 checkpoint,采用“持续预训练+后续训练”两阶段流程,全程对齐前者128K长上下文扩展数据分布。

5.2 持续预训练(分两阶段适配DSA)

5.2.1 密集预热阶段
  • 任务:初始化闪电索引器,保持密集注意力,冻结其他参数;
  • 逻辑:汇总注意力头分数并L1归一化得目标分布pt,:∈Rtp_{t,:} \in \mathbb{R}^{t}pt,:Rt,以KL散度损失训练索引器
    (公式:LI=∑tDKL(pt,:∥Softmax(It,:))\mathcal{L}^{I}=\sum_{t} \mathbb{D}_{KL}\left(p_{t,:} \| Softmax\left(I_{t,:}\right)\right)LI=tDKL(pt,:Softmax(It,:)));
  • 参数:学习率10−510^{-5}105,训练1000步(每步16个128K token序列),总训练量2.1B token。
5.2.2 稀疏训练阶段
  • 任务:引入细粒度token选择,优化所有参数适配DSA;
  • 逻辑:仅基于筛选token集St={s∣It,s∈Top−k(It,:)}S_{t}=\{s | I_{t, s} \in Top-k (I_{t,:})\}St={sIt,sTopk(It,:)}对齐分布(损失公式:LI=∑tDKL(pt,St∥Softmax(It,St))\mathcal{L}^{I}=\sum_{t} \mathbb{D}_{KL}\left(p_{t, S_{t}} \| Softmax\left(I_{t, S_{t}}\right)\right)LI=tDKL(pt,StSoftmax(It,St))),索引器与计算图分离单独优化;
  • 参数:学习率7.3×10−67.3 ×10^{-6}7.3×106,每查询token选2048个键值token,训练15000步(每步480个128K token序列),总训练量943.7B token。

5.3 后续训练

5.3.1 核心原则

沿用稀疏注意力模式,保持与DeepSeek-V3.1-Terminus一致的训练流程、算法及数据,以评估DSA影响。

5.3.2 关键模块
  • 专家蒸馏:针对写作、通用问答及5个特定领域,微调专家模型并经大规模RL训练,生成两类训练数据,蒸馏后模型性能接近专家模型(后续RL可消除差距);
  • 混合RL训练:用GRPO算法,将推理、智能体、人类对齐训练合并为单RL阶段,平衡多领域性能并避免灾难性遗忘,按任务类型设计奖励机制。

6.【模型评估】

Evaluations of DeepSeek-V3.1-Terminus and DeepSeek-V3.2-Exp

6.1 模型能力评估

  • 方式:在通用、搜索智能体、代码、数学等多领域基准测试集对比DeepSeek-V3.2-Exp与V3.1-Terminus,同时对比两者RL训练曲线。
  • 结论:V3.2-Exp长序列效率显著提升,短/长上下文性能无大幅下降;RL训练曲线对齐,印证DSA稳定性;部分任务性能略低因推理token少,中间checkpoint可消除差距。

RL training curve of DeepSeek-V3.1-Terminus and DeepSeek-V3.2-Exp on BrowseComp and SWE Verified.

6.2 推理成本评估

  • 复杂度:DSA将主模型核心注意力复杂度从O(L2)O(L^2)O(L2)降至O(Lk)O(Lk)O(Lk)k≪Lk\ll LkL),闪电索引器计算量远低于V3.1-Terminus的MLA,长上下文端到端速度提升。
  • 实测:基于H800 GPU(时租2美元),展示预填充/解码阶段token成本随位置变化;短序列预填充用掩码MHA模拟DSA提效。
    Inference costs of DeepSeek-V3.1-Terminus and DeepSeek-V3.2-Exp on H800 clusters.

6.3 后续验证计划

内部评估效果良好,但将开展大规模真实场景测试,排查稀疏注意力架构潜在局限性。

7.【本地部署指南】

7.1 HuggingFace 部署方式

7.1.1 权重格式转换
  1. 进入推理代码所在文件夹,执行命令:
    cd inference
    
  2. 设置专家数量环境变量(固定值为256),执行命令:
    export EXPERTS=256
    
  3. 运行转换脚本,将 HuggingFace 格式的模型权重转换为推理演示所需格式(需替换 ${HF_CKPT_PATH} 为 HuggingFace 模型权重路径、${SAVE_PATH} 为转换后权重的保存路径、${MP} 为与可用 GPU 数量匹配的值),执行命令:
    python convert.py --hf-ckpt-path ${HF_CKPT_PATH} --save-path ${SAVE_PATH} --n-experts ${EXPERTS} --model-parallel ${MP}
    
7.1.2 启动交互式聊天界面
  1. 设置配置文件环境变量(使用 671B 版本模型的配置文件),执行命令:
    export CONFIG=config_671B_v3.2.json
    
  2. 启动交互式聊天界面(${MP} 需与前文设置的 GPU 数量保持一致),执行命令:
    torchrun --nproc-per-node ${MP} generate.py --ckpt-path ${SAVE_PATH} --config ${CONFIG} --interactive
    
    启动成功后,即可通过界面交互探索模型功能。

7.2 SGLang 部署方式

7.2.1 Docker 镜像安装

根据本地硬件型号,拉取对应版本的 Docker 镜像,执行对应命令:

  • 若使用 H200 显卡:
    docker pull lmsysorg/sglang:dsv32
    
  • 若使用 MI350 显卡:
    docker pull lmsysorg/sglang:dsv32-rocm
    
  • 若使用 NPU(A2 芯片):
    docker pull lmsysorg/sglang:dsv32-a2
    
  • 若使用 NPU(A3 芯片):
    docker pull lmsysorg/sglang:dsv32-a3
    
7.2.2 启动服务

执行如下命令启动 SGLang 服务,用于模型部署:

python -m sglang.launch_server --model deepseek-ai/DeepSeek-V3.2-Exp --tp 8 --dp 8 --page-size 64

7.3 vLLM 部署方式

vLLM 对 DeepSeek-V3.2-Exp 提供“Day-0 支持”(模型发布即兼容),具体部署步骤需参考 vLLM 官方提供的最新指南(recipes)。由于官方指南会实时更新操作细节,建议通过 vLLM 官方渠道获取对应部署代码及步骤。

顺带提一嘴:

得益于新模型服务成本的大幅降低,官方 API 价格也相应下调,新价格即刻生效!!

API
大家快来尝试一下!!

您可能感兴趣的与本文相关的镜像

ACE-Step

ACE-Step

音乐合成
ACE-Step

ACE-Step是由中国团队阶跃星辰(StepFun)与ACE Studio联手打造的开源音乐生成模型。 它拥有3.5B参数量,支持快速高质量生成、强可控性和易于拓展的特点。 最厉害的是,它可以生成多种语言的歌曲,包括但不限于中文、英文、日文等19种语言

<think>嗯,用户想了解DeepSeek-V3.2的特殊之处。参考了三条站内引用,其中引用1和2都提到了DeepSeek Sparse Attention(DSA)这个核心技术,引用3则提到性能对标Gemini-3.0-Pro。看来需要重点解释DSA机制。 用户明确问的是"特殊特性或特殊功能",所以回答要突出创新点。从引用看,DSA最大的突破在于将注意力计算复杂度到接近线性,这在处理长文本时特别有用。需要解释清楚传统注意力机制的问题和DSA如何解决。 另外注意到引用1提到这是"开创性"技术,引用2给出具体数据说推理成本低50%,这些都要体现在回答里。虽然引用3提到对标Gemini,但用户没问比较类问题,可以暂不展开。 上次回答用户关于大模型的问题时提到过架构创新,这次可以延续专业但易懂的风格。用户看起来对AI技术有一定了解,但可能不是专业人士,所以解释DSA时要避免太多数学公式,用直观类比更好。 准备用三个核心点来组织回答:首先是DSA的技术原理,其次是长文本处理优势,最后是整体性能提升。在DSA部分需要说明它如何优化计算复杂度,可以对比传统$O(n^2)$的复杂度,但要用文字说明而非公式。性能部分要引用具体数据增强说服力。 结尾考虑留个钩子,询问用户是否想了解技术细节或应用场景,这样既符合生成问题的要求,又能引导对话。不过要注意问题不能太技术化,保持开放性问题特征。 </think> DeepSeek-V3.2 的核心特殊之处在于其创新的 **DeepSeek Sparse Attention(DSA,深度求索稀疏注意力机制)**,这是该版本相比代(V3/V3.1)最具突破性的架构升级。以下是其核心特性与优势: --- ### 一、核心创新:DeepSeek Sparse Attention (DSA) 1. **计算复杂度显著低** - 传统注意力机制(如Transformer中的标准注意力)计算复杂度为 $O(n^2)$($n$ 为序列长度),导致长文本推理效率低。 - **DSA 将复杂度至接近线性 $O(n \log n)$**,尤其对超长上下文(如数万 token)场景优化明显[^1][^2]。 - **实际效果**:在长文本任务中,推理成本低约 **50%**,吞吐量大幅提升。 2. **动态稀疏化策略** - DSA 并非简单裁剪注意力头,而是 **动态识别并聚焦于关键token**(如关键词、实体、逻辑连接词),忽略冗余信息。 - 例如:处理一篇科研论文时,模型会自动强化对"假设""结论""数据"等核心部分的关注,弱化次要描述。 3. **保持高精度** - 通过稀疏化与局部注意力结合,DSA低计算量的同时,**基本无损模型语义理解能力**,甚至在长文档任务中表现更优[^1]。 --- ### 二、长文本处理能力飞跃 - **支持超长上下文窗口**:DSA 使 V3.2 能高效处理 **数十万 token** 的输入(如整本书、复杂代码库),适合法律合同分析、学术文献综述等场景。 - **应用示例**:用户上传一本 300 页的技术手册,模型可快提取关键设计参数与操作流程,无需分段处理。 --- ### 三、性能对标国际顶尖模型 - 综合评测显示,DeepSeek-V3.2 在 **推理、代码生成、多语言理解**等任务上,性能直接对标 **Gemini-3.0-Pro** 等国际顶级闭源模型[^3],尤其在中文复杂逻辑推理任务中表现突出。 --- ### 四、未来知识库整合潜力 - 结合引用[3]提到的 **"欧米伽未来研究所知识库"**(含 8000+ 沿领域资料),DSA 的长文本能力可赋能: - **动态知识检索**:从海量资料中精准定位关联内容。 - **跨领域分析**:例如关联"脑科学"与"AI伦理"的交叉研究。 --- ### 总结 > 🔑 **DeepSeek-V3.2 的核心特殊之处是 DSA 机制**——它以接近线性的计算成本实现长上下文高效推理,突破传统 Transformer 瓶颈,同时保持高精度,为工业级大模型应用提供新范式[^1][^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值