DeepSeek一天能赚多少钱?官方揭秘V3/R1推理系统,成本利润率545%!

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号:CVer2233,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

图片

转载自:机器之心

DeepSeek 官方:如果所有 tokens 全部按照 DeepSeek R1 的定价计算,理论上一天的总收入为 $562,027,成本利润率 545%。但实际上没有这么多收入,因为 V3 的定价更低,同时收费服务只占了一部分,另外夜间还会有折扣。

太突然了!原来 DeepSeek 也有 One More Thing。

就在所有人以为 DeepSeek 预告的 5 天开源告一段落时,今天中午 12 点 11 分,官方 𝕏 帐号再次更新,宣告「开源周」还在继续。不过这第六天 DeepSeek 并没有开源新的软件库,而是介绍了 DeepSeek-V3/R1 的推理系统。

image.png

概述地址:https://github.com/deepseek-ai/open-infra-index/blob/main/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md

DeepSeek 的推文中写到,DeepSeek-V3/R1 的推理系统采用了跨节点 EP 驱动的批量扩展、计算 - 通信重叠、负载平衡来实现对吞吐量和延迟的优化。同时,DeepSeek 还给出了其在线服务的统计数据:

  • 每个 H800 节点实现了 73.7k/14.8k 个每秒输入 / 输出 token;

  • (理论)成本利润率高达 545%

DeepSeek 还表示:「我们希望本周的洞见能够为社区带来价值,并为我们共同的 AGI 目标做出贡献。」

一时之间,社区再次沸腾,不仅仅是因为明明说的 5 天开源却来到了第 6 天以及 73.7k、14.8k、545% 这三个惊人的数字,大家尤其期待明天 —— 开源周的最后一天,DeepSeek 将用什么来压轴。

image.png

image.png

系统设计原则

为了实现更高的吞吐量和更低的延迟,DeepSeek 采用了跨节点专家并行(EP,Expert Parallelism)策略。

首先,EP 显著扩展了 batch 大小,提高了 GPU 矩阵计算效率并增加了吞吐量。

其次,EP 将专家分布到各个 GPU 上,每个 GPU 只处理一小部分专家(减少内存访问需求),从而降低延迟。

然而 EP 增加了系统的复杂性,主要表现在两个方面:

  • EP 引入了跨节点通信。为了优化吞吐量,必须设计适当的计算工作流,shi 通信与计算重叠。

  • EP 涉及多个节点,因此本质上需要数据并行 (DP),并且需要在不同的 DP 实例之间进行负载平衡。

为此,该项目重点介绍如何通过以下方式应对这些挑战:

  • 利用 EP 扩展 batch 大小;

  • 隐藏计算背后的通信延迟;

  • 执行负载平衡。

大规模跨节点专家并行(EP)

由于 DeepSeek-V3/R1 中专家数量庞大 —— 每层 256 个专家中只有 8 个被激活 —— 模型的高度稀疏性导致需要极大的总 batch 大小。这样才能确保每个专家有足够的 batch 大小,从而实现更高的吞吐量和更低的延迟。大规模跨节点 EP(专家并行)是至关重要的。

由于 DeepSeek 采用了预填充 - 解码分解架构,因此他们在预填充和解码阶段采用不同程度的并行性:

  • 预填充阶段 [路由专家 EP32、MLA / 共享专家 DP32]:每个部署单元跨越 4 个节点,拥有 32 个冗余路由专家,其中每个 GPU 处理 9 个路由专家和 1 个共享专家。

  • 解码阶段 [路由专家 EP144、MLA / 共享专家 DP144]:每个部署单元跨越 18 个节点,拥有 32 个冗余路由专家,其中每个 GPU 管理 2 个路由专家和 1 个共享专家。

计算 - 通信重叠

大规模跨节点 EP 会引入显著的通信开销。为了缓解这一问题,DeepSeek 采用了「dual-batch」重叠策略,通过将一个 batch 请求拆分为两个 microbatch 来隐藏通信成本并提高整体吞吐量。在预填充阶段,这两个 microbatch 交替执行,一个 microbatch 的通信成本被隐藏在另一个 microbatch 的计算过程中。

image.png

预填充阶段通信 - 计算重叠

在解码阶段,不同阶段的执行时间是不平衡的。因此,DeepSeek 将注意力层细分为两个 step,并使用一个 5 阶段的 pipeline 来实现无缝的通信 - 计算重叠。

image.png

解码阶段的通信 - 计算重叠

关于通信 - 计算重叠机制的更多细节可以参考:https://github.com/deepseek-ai/profile-data

实现最优负载平衡

大规模并行化(包括 DP 和 EP)存在一个关键难题:如果单台 GPU 的计算或通信负荷过重,它就会成为性能瓶颈,导致整个系统变慢,同时还让其他 GPU 处于闲置状态。为了最大限度地提高资源利用率,DeepSeek 努力实现了所有 GPU 上的计算和通信负载平衡。

1. 预填充负载平衡器

关键问题:DP 实例之间的请求数量和序列长度不同,导致核心注意力(core-attention)计算和调度发送负载不平衡。

优化目标:

  • 平衡 GPU 之间的核心注意力计算(核心注意力计算负载平衡)。

  • 均衡每个 GPU 的输入 token 数量(调度发送负载平衡),防止特定 GPU 上的处理时间过长。

2. 解码负载平衡器

关键问题:DP 实例之间的请求数量和序列长度不均匀导致核心注意力计算(与 KV 缓存使用量相关)和调度发送负载不均。

优化目标:

  • 平衡 GPU 之间的 KV 缓存使用率(核心注意力计算负载平衡)。

  • 均衡每个 GPU 的请求数(调度发送负载平衡)。

3. 专家并行负载平衡器

关键问题:对于给定的 MoE 模型,存在固有的高负载专家,导致不同 GPU 之间的专家计算工作负载不平衡。

优化目标:平衡每个 GPU 上的专家计算(即,最小化所有 GPU 上的最大调度接收负载)。

DeepSeek 在线推理系统示意图 

image.png

DeepSeek 在线推理系统示意图

DeepSeek 在线服务统计 

所有 DeepSeek-V3/R1 推理服务均在 H800 GPU 上运行,精度与训练一致。具体而言,矩阵乘法和分发传输采用与训练一致的 FP8 格式,而核心 MLA 计算和组合传输使用 BF16 格式,确保最佳服务性能。 

此外,由于白天服务负载高而夜间负载低,DeepSeek 实施了一种机制,于白天高峰时段在所有节点上部署推理服务。在夜间低负载期间,他们减少推理节点并将资源分配给研究和训练。在过去 24 小时内(北京时间 2025 年 2 月 27 日中午 12:00 至 2025 年 2 月 28 日中午 12:00),V3 和 R1 推理业务的合并峰值节点占用达到 278,平均占用 226.75 个节点(每个节点包含 8 个 H800 GPU)。假设租赁一个 H800 GPU 的成本为每小时 2 美元,每日总成本为 87,072 美元(约合人民币 63.4 万)。 

image.png

H800 推理服务节点数量。

在 24 小时统计期间(北京时间 2025 年 2 月 27 日中午 12:00 至 2025 年 2 月 28 日中午 12:00),V3 和 R1: 

  • 总输入 token:608B,其中 342B token(56.3%)命中磁盘 KV 缓存。

  • 总输出 token:168B。平均输出速度为每秒 20-22 个 token,每个输出 token 的平均 kvcache 长度为 4,989 个 token。

  • 每个 H800 节点在预填充期间平均吞吐量约为 73.7k tokens/s 输入(包括缓存命中)或在解码期间约为 14.8k tokens/s 输出。

以上统计数据包括来自网页、APP 和 API 的所有用户请求。如果所有 token 都按照 DeepSeek-R1 的定价 (*) 计费,每日总收入将为 562,027 美元,成本利润率为 545%。 

(*) R1 定价:0.14 美元 / 百万输入 token(缓存命中),0.55 美元 / 百万输入 token(缓存未命中),2.19 美元 / 百万输出 token。 

然而,DeepSeek 表示实际收入大幅低于此数字,原因如下:

  • DeepSeek-V3 的定价显著低于 R1,

  • 只有部分服务实现货币化(网页和 APP 访问仍然免费),

  • 在非高峰时段自动应用夜间折扣。

image.png

明天是这周的最后一天,不知道 DeepSeek 还有没有新的惊喜。

 
 

何恺明在MIT授课的课件PPT下载

 
 

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

 
 

CVPR 2025 论文和代码下载

在CVer公众号后台回复:CVPR2025,即可下载CVPR 2025论文和代码开源的论文合集

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

 
 
扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
OFDM(正交频分复用)是一种高效的多载波通信技术,它将高速数据流拆分为多个低速子流,并通过多个并行的低带宽子载波传输。这种技术具有高频谱效率、强抗多径衰落能力和灵活的带宽分配优势。 OFDM系统利用大量正交子载波传输数据,子载波间的正交性可有效避免码间干扰(ISI)。其数学表达为多个离散子载波信号的线性组合,调制和解调过程通过FFT(快速傅立叶变换)和IFFT(逆快速傅立叶变换)实现。其关键流程包括:数据符号映射到子载波、IFFT转换为时域信号、添加循环前缀以减少ISI、信道传输、接收端FFT恢复子载波数据和解调原始数据。 Matlab是一种广泛应用于科研、工程和数据分析的高级编程语言和交互式环境。在OFDM系统设计中,首先需掌握Matlab基础,包括编程语法、函数库和工具箱。接着,根据OFDM原理构建系统模型,实现IFFT/FFT变换、循环前缀处理和信道建模等关键算法,并通过改变参数(如信噪比、调制方式)评估系统性能。最后,利用Matlab的绘图功能展示仿真结果,如误码率(BER)曲线等。 无线通信中主要考虑加性高斯白噪声(AWGN),其在频带上均匀分布且统计独立。通过仿真OFDM系统,可在不同信噪比下测量并绘制BER曲线。分析重点包括:不同调制方式(如BPSK、QPSK)对BER的影响、循环前缀长度选择对性能的影响以及信道估计误差对BER的影响。 OFDM技术广泛应用于多个领域,如数字音频广播(DAB)、地面数字电视广播(DVB-T)、无线局域网(WLAN)以及4G/LTE和5G移动通信,是这些通信标准中的核心技术之一。 深入研究基于Matlab的OFDM系统设计与仿真,有助于加深对OFDM技术的理解,并提升解决实际通信问题的能力。仿真得到的关键性能指标(如BER曲线)对评估系统可靠性至关重要。未来可进一步探索复杂信道条件下的OFDM性能及系统优化,以适应不同应用场景
### 整合CodeGPT插件与DeepSeek-V3/R1在IntelliJ IDEA中的方法 #### 插件安装 为了使CodeGPT插件能够在IntelliJ IDEA环境中正常工作并支持特定版本的模型如deepseek-v3/r1,需先通过官方渠道下载对应版本的CodeGPT插件[^1]。 确保所使用的IDEA版本兼容该插件。通常,在JetBrains官方网站或其市场页面会提供详细的系统需求说明以及不同版本间的差异描述[^2]。 #### 配置环境变量 完成上述操作之后,应当配置必要的API密钥和其他连接参数以便于访问远程部署的服务端点。这一步骤可能涉及到设置HTTP代理或是调整防火墙策略来允许程序向指定服务器发起请求[^3]。 对于具体到deepseek-v3/r1这一特殊变种而言,还需要确认服务提供商是否提供了额外的安全认证机制(比如OAuth2),因为这些都会影响最终能否成功调用API接口获取预期功能的支持[^4]。 #### 测试集成效果 最后但同样重要的是验证整个流程的有效性。创建一个新的项目文件夹作为测试对象;尝试编写几行简单的代码片段触发自动补全提示或其他由AI驱动的功能特性;观察响应时间长短及建议质量高低等方面的表现情况以评估此次整合工作的成效如何[^5]。 ```bash # 假设这是用于启动带有自定义参数的应用实例命令示例 ./idea.sh -Dcodegpt.api.endpoint=https://api.deepseek.com/v3/r1 \ -Dcodegpt.auth.token=YOUR_ACCESS_TOKEN_HERE ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值