DeepSeek 新模型悄悄发布了-CSDN博客

本文链接：https://blog.csdn.net/u013527895/article/details/146517120

网友发现 DeepSeek 新模型悄悄发布了！

并且刚升级的 V3 模型已经上线各官方入口，关闭深度思考模式就能体验到。

微博上已经传开了。

笔者看到群里有一个更新日志，让DK自己解读了一下。

DeepSeek-V3 技术报告（2025年3月24日更新版）

1. 简介

我们推出DeepSeek-V3，这是一个强大的混合专家（MoE）语言模型，总参数量达6710亿，每个token激活370亿参数。基于DeepSeek-V2验证过的多头潜在注意力（MLA）和DeepSeekMoE架构，DeepSeek-V3实现了高效推理与经济性训练。该模型首创无辅助损失的负载均衡策略，并采用多token预测训练目标以增强性能。经过14.8万亿高质量token的预训练，以及监督微调与强化学习阶段的优化，综合评估表明DeepSeek-V3超越其他开源模型，性能媲美顶尖闭源模型。整个训练过程仅消耗278.8万H800 GPU小时且异常稳定，未出现任何不可恢复的损失尖峰或回滚操作。

2. 模型概要

架构创新：负载均衡策略与训练目标

在DeepSeek-V2高效架构基础上，首创无辅助损失的负载均衡策略，避免传统方法导致的性能下降
验证多token预测（MTP）目标对模型性能的提升作用，该技术也可用于推测解码加速推理

预训练：极致训练效率

设计FP8混合精度训练框架，首次在超大规模模型验证FP8训练的可行性
通过算法-框架-硬件协同设计，突破跨节点MoE训练的通信瓶颈，实现近100%计算-通信重叠
仅耗费266.4万H800 GPU小时完成14.8T token预训练，后续训练阶段仅需10万GPU小时

后训练：DeepSeek-R1知识蒸馏

创新性地将长链思维（CoT）模型的推理能力蒸馏至标准LLM（特别是DeepSeek-V3）
将R1系列的验证反思模式融入DeepSeek-V3，显著提升其推理性能，同时保持输出风格可控

3. 模型下载

模型	总参数量	激活参数量	上下文长度	下载链接
DeepSeek-V3-Base	6710亿	370亿	128K	🤗 HuggingFace
DeepSeek-V3	6710亿	370亿	128K	🤗 HuggingFace

注：HuggingFace上的模型总大小6850亿，包含6710亿主模型参数和140亿多token预测模块参数。具体部署指南参见第6章本地运行指南。

4. 评估结果

基础模型

标准基准测试

DeepSeek-V3在多数测试中领先，尤其在数学和代码任务表现突出：

英语能力：MMLU-Pro准确率64.4%，DROP F1分数89.0%
代码能力：HumanEval通过率65.2%，LiveCodeBench通过率19.4%
数学能力：GSM8K准确率89.3%，MATH准确率61.6%
中文能力：C-Eval准确率90.1%，CMMLU准确率88.8%
多语言：非英语MMLU准确率79.4%

上下文窗口

在128K长度的"大海捞针"（NIAH）测试中表现优异。

对话模型

标准基准测试（>670亿参数）

综合能力：MMLU准确率88.5%，MMLU-Pro准确率75.9%
代码：HumanEval-Mul通过率82.6%，Codeforces百分位51.6%
数学：AIME 2024通过率39.2%，MATH-500准确率90.2%
中文：C-Eval准确率86.5%，C-SimpleQA正确率64.8%

开放式生成评估

Arena-Hard：85.5
AlpacaEval 2.0（长度控制胜率）：70.0

5. 在线服务

官网对话：chat.deepseek.com
API平台：platform.deepseek.com

6. 本地运行指南

支持多种部署方案：

DeepSeek-Infer Demo：轻量级FP8/BF16推理演示
SGLang：全功能支持BF16/FP8推理（推荐）
LMDeploy：高效FP8/BF16本地/云端部署（推荐）
TensorRT-LLM：支持BF16及INT4/8量化（即将支持FP8）
vLLM：支持FP8/BF16张量/流水线并行
AMD GPU：通过SGLang支持AMD显卡
华为昇腾NPU：通过MindIE框架适配

6.1 DeepSeek-Infer Demo示例

shell

# 权重转换python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo# 交互式对话torchrun --nnodes 2 --nproc-per-node 8 generate.py --ckpt-path /path/to/DeepSeek-V3-Demo