DeepSeek本地部署硬件指南

AcceptedLin

已于 2025-02-18 16:50:05 修改

阅读量1.4w

点赞数 1

文章标签：人工智能算法机器学习

于 2025-02-18 16:46:19 首次发布

原文链接：https://zhuanlan.zhihu.com/p/22711600251?utm_psn=1875171492603510784

版权

模型规模	典型能力	适用场景
1.5B~8B	基础文本生成、简单问答	轻量级任务（如聊天机器人雏形、文本补全）
14B~32B	复杂逻辑推理、多轮对话	中等需求场景（客服系统、代码辅助）
70B+	接近人类水平的连贯性、强推理能力	专业领域（法律/医疗咨询、复杂创作）

一、DeepSeek-R1目前提供了多个参数规模模型：

DeepSeek 1.5B：15亿参数（小）

DeepSeek 7B：70亿参数（中）

DeepSeek 70B：700亿参数（高）

DeepSeek 671B：6710亿参数（超大）完整版；

二、显存需求计算公式

显存占用由参数存储 + 训练/推理额外开销决定：

1、参数存储

FP32（全精度）：每参数4字节

FP16（半精度）：每参数2字节

INT8量化：每参数1字节

计算公式：

显存（GB）= 参数数量 × 每参数字节数 ÷ 1e9

2、训练阶段总显存

需额外存储梯度、优化器状态和激活值：

梯度：与参数同类型（如FP32需4字节/参数）

优化器状态：Adam优化器需存储动量和方差（FP32，共8字节/参数）

激活值：与批次大小、序列长度强相关（约占20%~50%总显存）

经验公式：

训练显存 ≈ 参数数量 × 20字节

（FP16混合精度下，优化器状态仍为FP32）

3、推理阶段总显存

仅需加载参数和少量激活值：

推理显存 ≈ 参数存储 × 1.2~1.5（激活值占额外20%~50%）

3.显存优化技术

混合精度训练（AMP）：FP16参数+FP32优化器，显存减少50%。

模型并行（Tensor/Pipeline Parallelism）：将模型拆分至多卡（如70B需8卡）。

ZeRO优化（DeepSpeed）：分片存储优化器状态（ZeRO-2）、梯度（ZeRO-2）、参数（ZeRO-3）。

量化技术：

*训练时：8-bit优化器（节省4倍显存）

*推理时：4-bit/8-bit量化（显存减少50%~75%）

梯度检查点（Gradient Checkpointing）：用计算时间换显存，激活值显存减少70%。

三、DeepSeek各模型显存需求与GPU配置分析

模型	训练显存需求	推理显存需求	技术策略推荐
1.5B	30 GB（FP16混合精度）	5~7 GB（FP16）	ZeRO-1 + 梯度检查点
7B	140 GB（FP16混合精度）	20~25 GB（FP16）	ZeRO-2 + 模型并行
70B	1.4 TB（FP16混合精度）	140~200 GB（FP16）	ZeRO-3 + 8-bit量化 + 激活卸载
671B	13.42 TB（FP16混合精度）	1.3~2 TB（FP16）	混合并行 + 4-bit量化 + 内存优化框架

模型规模	FP32原生	FP16精度	4-bit量化
1.5B	6GB	3GB	0.8GB
7B	28GB	14GB	4GB
14B	56GB	28GB	7GB
70B	280GB	140GB	35GB

DeepSeek模型参考	GPU推荐
AI模型	模型参数	模型大小	显存建议	训练	推理
DeepSeek-R1-1.5B	1.5B	1.1G	＞4G	＞24GB	＞16GB
DeepSeek-R1-7B	7B	4.7G	＞20G	＞2*24GB	＞24GB
DeepSeek-R1-14B	14B	9G	＞40G	＞2*40GB	＞2*24GB
DeepSeek-R1-32B	32B	20G	＞80G	＞2*80GB	＞2*40GB
DeepSeek-R1-70B	70B	43G	＞180G	＞4*80GB	＞4*40GB
DeepSeek-R1-671B	671B	404G	＞440G	＞8*80GB

四、实际部署建议

训练场景：

1.5B模型：24GB显存及以上规格GPU。

7B模型： 40GB-80GB显存及以上规格GPU，使用多卡并行策略，如：双卡4090等。

70B模型：多卡GPU训练服务器，比如8卡A100 80GB等；

671B模型：GPU超算集群（上百A100或H100计算卡）。

推理场景：

1.5B模型：12-24GB显存以上规格的GPU，如：RTX4080S或4090 24GB；入门级3060 12G也可以负载；

7B模型：24GB-40GB显存及以上规格的GPU。如：RTX 4090 24GB或A100 40GB等；

70B/671B模型：多卡推理服务器4卡或8卡，显卡可配置4090或者A100 80GB等。

纯CPU部署内存要求：
每10亿参数约需：

FP32：4GB内存

8-bit量化：1GB内存

示例：

7B模型需28GB内存（FP32）或7GB（8-bit）

70B模型需280GB内存（FP32）或70GB（8-bit）

注意：CPU推理速度可能比GPU慢50-100倍。

五、典型配置推荐

六、注意事项

实际内存占用会比理论值多20-30%（计算中间状态）
Windows系统建议预留10%额外内存
70B+模型建议使用模型并行（tensor parallelism）
首次加载模型需要额外20%的峰值内存

【参考】：https://zhuanlan.zhihu.com/p/22711600251?utm_psn=1875171492603510784

DeepSeek本地部署应该选择哪种模型规模_deepseek70b 可以纯cpu吗-CSDN博客

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。