如何评估大模型全参数微调需要的显存

文章探讨了现有大模型在不同精度和微调方法下的显存需求,指出全参数微调所需显存约为16bits精度的20倍,而QLoRA则显著减少,约为1倍。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简介       

        现有的大模型 默认的是16bits精度,当模型的参数量大小为 **B ,推理所需的显存一般是 ** 的 2 倍。对于全参数微调所需显存,目前来说普遍的说法是约为推理所需显存的 3-4 倍(包括模型推理(1倍)、梯度(1倍)、优化器状态(AdamW 2倍,SGD 1倍)),也就是 ** 的 6-8 倍。但是从实际测试来看的话,全参数微调所需显存约为推理所需显存的10 倍左右,也即 ** 的20倍左右。

        以下是模型不同微调方法时候的经验显存数值:

方法

bits

7B

13B

30B

65B

8*7B

全参数微调

16

160GB

320GB

600GB

1200GB

900GB

Freeze

16

20GB

40GB

120GB

240GB

200GB

LoRA

16

16GB

32GB

80GB

160GB

120GB

QLoRA

8

10GB

16GB

40GB

80GB

80GB

QLoRA

4

6GB

12GB

24GB

48GB

32GB

结论

        从上述的经验显存上也可看到,全参数微调,约为 ** 的20倍左右;而4 bits 的QLoRA,所需的显存约为 ** 的1 倍左右。

对于ChatGPT模型的全参数微调,你可以按照以下步骤进行操作: 1. 数据准备:收集与你的任务或领域相关的对话数据集。确保数据集中的对话样本符合你的需求,并包含足够的多样性和覆盖面。 2. 模型选择:选择一个预训练的ChatGPT模型作为基础模型。你可以从Hugging Face的模型库(https://huggingface.co/models)中选择适合你任务的模型。 3. 模型微调:使用你准备好的对话数据集对选定的ChatGPT模型进行微调微调过程涉及将数据输入模型,通过优化算法(如Adam)进行参数更新,以使模型适应特定任务。 4. 超参数调优:在微调过程中,你可以根据需要调整一些超参数,例如学习率、批大小、训练步数等。通过在验证集上进行实验和评估,找到最佳的超参数配置。 5. 评估和测试:在微调完成后,使用测试集对微调后的模型进行评估,以了解其在任务上的性能表现。你可以计算一些指标,例如准确率、BLEU分数或人工评估结果。 6. 迭代改进:根据评估结果,你可能需要进一步优化微调过程。这可能包括调整数据集、微调策略或模型架构,以提高模型的性能。 需要注意的是,全参数微调可能需要大量的计算资源和时间。确保你有足够的计算资源,并在适当的时间内规划微调过程。此外,也要注意数据的质量和隐私问题,确保你的数据集符合相关法规和规定。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值