DeepSeek 新模型悄悄发布了

网友发现 DeepSeek 新模型悄悄发布了!

图片

并且刚升级的 V3 模型已经上线各官方入口,关闭深度思考模式就能体验到。

图片 微博上已经传开了。

笔者看到群里有一个更新日志, 让DK自己解读了一下。

DeepSeek-V3 技术报告(2025年3月24日更新版)

1. 简介

我们推出DeepSeek-V3,这是一个强大的混合专家(MoE)语言模型,总参数量达6710亿,每个token激活370亿参数。基于DeepSeek-V2验证过的多头潜在注意力(MLA)和DeepSeekMoE架构,DeepSeek-V3实现了高效推理与经济性训练。该模型首创无辅助损失的负载均衡策略,并采用多token预测训练目标以增强性能。经过14.8万亿高质量token的预训练,以及监督微调与强化学习阶段的优化,综合评估表明DeepSeek-V3超越其他开源模型,性能媲美顶尖闭源模型。整个训练过程仅消耗278.8万H800 GPU小时且异常稳定,未出现任何不可恢复的损失尖峰或回滚操作。

2. 模型概要


架构创新:负载均衡策略与训练目标

  • 在DeepSeek-V2高效架构基础上,首创无辅助损失的负载均衡策略,避免传统方法导致的性能下降

  • 验证多token预测(MTP)目标对模型性能的提升作用,该技术也可用于推测解码加速推理


预训练:极致训练效率

  • 设计FP8混合精度训练框架,首次在超大规模模型验证FP8训练的可行性

  • 通过算法-框架-硬件协同设计,突破跨节点MoE训练的通信瓶颈,实现近100%计算-通信重叠

  • 仅耗费266.4万H800 GPU小时完成14.8T token预训练,后续训练阶段仅需10万GPU小时


后训练:DeepSeek-R1知识蒸馏

  • 创新性地将长链思维(CoT)模型的推理能力蒸馏至标准LLM(特别是DeepSeek-V3)

  • 将R1系列的验证反思模式融入DeepSeek-V3,显著提升其推理性能,同时保持输出风格可控


3. 模型下载

模型总参数量激活参数量上下文长度下载链接

DeepSeek-V3-Base

6710亿

370亿

128K

🤗 HuggingFace

DeepSeek-V3

6710亿

370亿

128K

🤗 HuggingFace

:HuggingFace上的模型总大小6850亿,包含6710亿主模型参数和140亿多token预测模块参数。具体部署指南参见第6章本地运行指南。

4. 评估结果

基础模型

标准基准测试

DeepSeek-V3在多数测试中领先,尤其在数学和代码任务表现突出:

  • 英语能力:MMLU-Pro准确率64.4%,DROP F1分数89.0%

  • 代码能力:HumanEval通过率65.2%,LiveCodeBench通过率19.4%

  • 数学能力:GSM8K准确率89.3%,MATH准确率61.6%

  • 中文能力:C-Eval准确率90.1%,CMMLU准确率88.8%

  • 多语言:非英语MMLU准确率79.4%

上下文窗口

在128K长度的"大海捞针"(NIAH)测试中表现优异。

对话模型

标准基准测试(>670亿参数)
  • 综合能力:MMLU准确率88.5%,MMLU-Pro准确率75.9%

  • 代码:HumanEval-Mul通过率82.6%,Codeforces百分位51.6%

  • 数学:AIME 2024通过率39.2%,MATH-500准确率90.2%

  • 中文:C-Eval准确率86.5%,C-SimpleQA正确率64.8%

开放式生成评估
  • Arena-Hard:85.5

  • AlpacaEval 2.0(长度控制胜率):70.0

5. 在线服务

  • 官网对话:chat.deepseek.com

  • API平台:platform.deepseek.com

6. 本地运行指南

支持多种部署方案:

  1. DeepSeek-Infer Demo:轻量级FP8/BF16推理演示

  2. SGLang:全功能支持BF16/FP8推理(推荐)

  3. LMDeploy:高效FP8/BF16本地/云端部署(推荐)

  4. TensorRT-LLM:支持BF16及INT4/8量化(即将支持FP8)

  5. vLLM:支持FP8/BF16张量/流水线并行

  6. AMD GPU:通过SGLang支持AMD显卡

  7. 华为昇腾NPU:通过MindIE框架适配

6.1 DeepSeek-Infer Demo示例

shell

# 权重转换python convert.py --hf-ckpt-path /path/to/DeepSeek-V3 --save-path /path/to/DeepSeek-V3-Demo# 交互式对话torchrun --nnodes 2 --nproc-per-node 8 generate.py --ckpt-path /path/to/DeepSeek-V3-Demo

6.2 SGLang部署(推荐)

支持NVIDIA/AMD显卡的FP8/BF16推理,详见SGLang指南

7. 许可证

代码库采用MIT许可证,模型使用遵循模型许可证,支持商业用途。

8. 引用

bibtex

送个福利:

AI破局三天实战营,连续三天硬核直播。

有素人做AI副业从0到百万的案例,有AI数字人口播带货、AI代写带货等热门项目。

直接领卡即可免费参加。

图片

图片

图片

图片


公众号后台回复:陪伴群,可以直接链接军哥,做AI启航

福利:+ jianghu10002领取IP起盘手册

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值