网友发现 DeepSeek 新模型悄悄发布了!

并且刚升级的 V3 模型已经上线各官方入口,关闭深度思考模式就能体验到。

DeepSeek-V3 技术报告(2025年3月24日更新版)
1. 简介
我们推出DeepSeek-V3,这是一个强大的混合专家(MoE)语言模型,总参数量达6710亿,每个token激活370亿参数。基于DeepSeek-V2验证过的多头潜在注意力(MLA)和DeepSeekMoE架构,DeepSeek-V3实现了高效推理与经济性训练。该模型首创无辅助损失的负载均衡策略,并采用多token预测训练目标以增强性能。经过14.8万亿高质量token的预训练,以及监督微调与强化学习阶段的优化,综合评估表明DeepSeek-V3超越其他开源模型,性能媲美顶尖闭源模型。整个训练过程仅消耗278.8万H800 GPU小时且异常稳定,未出现任何不可恢复的损失尖峰或回滚操作。
2. 模型概要
架构创新:负载均衡策略与训练目标
在DeepSeek-V2高效架构基础上,首创无辅助损失的负载均衡策略,避免传统方法导致的性能下降
验证多token预测(MTP)目标对模型性能的提升作用,该技术也可用于推测解码加速推理
预训练:极致训练效率
设计FP8混合精度训练框架,首次在超大规模模型验证FP8训练的可行性
通过算法-框架-硬件协同设计,突破跨节点MoE训练的通信瓶颈,实现近100%计算-通信重叠
仅耗费266.4万H800 GPU小时完成14.8T token预训练,后续训练阶段仅需10万GPU小时
后训练:DeepSeek-R1知识蒸馏
创新性地将长链思维(CoT)模型的推理能力蒸馏至标准LLM(特别是DeepSeek-V3)
将R1系列的验证反思模式融入DeepSeek-V3,显著提升其推理性能,同时保持输出风格可控
3. 模型下载
模型 | 总参数量 | 激活参数量 | 上下文长度 | 下载链接 |
---|---|---|---|---|
DeepSeek-V3-Base | 6710亿 | 370亿 | 128K | 🤗 HuggingFace |
DeepSeek-V3 | 6710亿 | 370亿 | 128K | 🤗 HuggingFace |
注:HuggingFace上的模型总大小6850亿,包含6710亿主模型参数和140亿多token预测模块参数。具体部署指南参见第6章本地运行指南。
4. 评估结果
基础模型
标准基准测试
DeepSeek-V3在多数测试中领先,尤其在数学和代码任务表现突出:
英语能力:MMLU-Pro准确率64.4%,DROP F1分数89.0%
代码能力:HumanEval通过率65.2%,LiveCodeBench通过率19.4%
数学能力:GSM8K准确率89.3%,MATH准确率61.6%
中文能力:C-Eval准确率90.1%,CMMLU准确率88.8%
多语言:非英语MMLU准确率79.4%
上下文窗口
在128K长度的"大海捞针"(NIAH)测试中表现优异。
对话模型
标准基准测试(>670亿参数)
综合能力:MMLU准确率88.5%,MMLU-Pro准确率75.9%
代码:HumanEval-Mul通过率82.6%,Codeforces百分位51.6%
数学:AIME 2024通过率39.2%,MATH-500准确率90.2%
中文:C-Eval准确率86.5%,C-SimpleQA正确率64.8%
开放式生成评估
Arena-Hard:85.5
AlpacaEval 2.0(长度控制胜率):70.0
5. 在线服务
官网对话:chat.deepseek.com
API平台:platform.deepseek.com
6. 本地运行指南
支持多种部署方案:
DeepSeek-Infer Demo:轻量级FP8/BF16推理演示
SGLang:全功能支持BF16/FP8推理(推荐)
LMDeploy:高效FP8/BF16本地/云端部署(推荐)
TensorRT-LLM:支持BF16及INT4/8量化(即将支持FP8)
vLLM:支持FP8/BF16张量/流水线并行
AMD GPU:通过SGLang支持AMD显卡
华为昇腾NPU:通过MindIE框架适配
6.1 DeepSeek-Infer Demo示例
shell
# 权重转换python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo# 交互式对话torchrun --nnodes 2 --nproc-per-node 8 generate.py --ckpt-path /path/to/DeepSeek-V3-Demo
6.2 SGLang部署(推荐)
支持NVIDIA/AMD显卡的FP8/BF16推理,详见SGLang指南
7. 许可证
代码库采用MIT许可证,模型使用遵循模型许可证,支持商业用途。
8. 引用
bibtex
送个福利:
AI破局三天实战营,连续三天硬核直播。
有素人做AI副业从0到百万的案例,有AI数字人口播带货、AI代写带货等热门项目。
直接领卡即可免费参加。
公众号后台回复:陪伴群,可以直接链接军哥,做AI启航
福利:+ jianghu10002领取IP起盘手册