【大模型】微调一个大模型需要多少 GPU 显存？

酒酿小圆子～

于 2025-03-31 21:30:57 发布

阅读量1.4k

点赞数 19

分类专栏：大模型文章标签： python 算法开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012856866/article/details/146870846

版权

大模型专栏收录该内容

65 篇文章

订阅专栏

视频链接：微调一个模型需要多少GPU显存？ up 主页：AI老兵
tags： #GPU显存 #模型微调 #LoRA #QLoRA #参数计算本集视频详细介绍了在模型微调过程中 GPU
显存需求的计算方法，包括全量微调和高效微调（如 LoRA）的情况。up 主通过具体示例，说明了如何估算不同规模模型和不同微调方法所需的 GPU 显存大小。

1 全量微调的 GPU 显存需求

1.1 主要显存消耗模块

Model Weight: 模型本身的参数
Gradient: 用于计算参数更新的梯度
Optimizer State: 优化器状态，取决于所使用的优化器类型
其他（如 Activation 等）

1.2 显存需求计算示例（1B 模型，16bit 参数）

微调 1B 模型，16bit = 2byte

Model Weight（模型参数）: 2GB (10 亿参数 * 2 byte/参数)

训练模型时，通过一系列反向传播的方法，来更新模型参数，涉及以下gradient和optimizer states参数。不断计算梯度，以更新模型参数。

Gradient（梯度）: 2GB (通常与 Model Weight 相当)
Optimizer State（优化器）: 8GB（保守估计为 Model Weight 的 4 倍）
总计: 12GB（约6倍的model weight显存）

2 高效微调方法：LoRA

2.1 LoRA 微调原理

保持原有模型不变
学习更少量的参数（如原模型参数的 2.5%）
将学习结果与原模型结合形成新模型

2.2 LoRA 下的显存需求（以 2.5%参数为例）

LORA只对部分参数进行学习，大幅减少显存需求。显存需求计算示例（假设 LoRA 模块为原模型 2.5%）:

Model Weight（模型参数）: 2GB（保持不变）
Adapter Weight（适配器参数）: 0.05GB (2GB * 2.5%)
Gradient + Optimizer State（梯度+优化器）: 0.25GB (10GB * 2.5%)
总计: 2.3GB

3 进一步优化：QLoRA

3.1 QLoRA 原理

通过量化（Quantization）方法进一步压缩 Model Weight
可将 16bit 参数压缩至 8bit 或 4bit

3.2 QLoRA 下的显存需求

Model Weight（模型参数）: 可能降至 1GB 或 0.5GB
其他项目相应减少

4 实际项目中的其他考虑因素

单卡 vs 多卡训练
单节点 vs 多节点训练
DeepSpeed 的 Zero3 或 Zero2 等优化策略

5 总结

模型微调所需的 GPU 显存取决于多个因素，包括模型大小、微调方法和优化策略。全量微调需要较大显存，而高效微调方法如 LoRA 和 QLoRA 可以显著减少显存需求。在实际项目中，还需考虑硬件配置和训练策略等因素来更精确地估算 GPU 显存需求。

参考资料

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。