如何评估大模型全参数微调需要的显存

菠萝哥~

已于 2024-01-30 16:51:04 修改

阅读量1.6w

点赞数 21

分类专栏： LLM NLP 文章标签： nlp gpt-3

于 2024-01-29 11:46:18 首次发布

本文链接：https://blog.csdn.net/2301_79093491/article/details/135908706

版权

LLM 同时被 2 个专栏收录

11 篇文章

订阅专栏

NLP

11 篇文章

订阅专栏

文章探讨了现有大模型在不同精度和微调方法下的显存需求，指出全参数微调所需显存约为16bits精度的20倍，而QLoRA则显著减少，约为1倍。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

简介

现有的大模型默认的是16bits精度，当模型的参数量大小为 **B ，推理所需的显存一般是 ** 的 2 倍。对于全参数微调所需显存，目前来说普遍的说法是约为推理所需显存的 3-4 倍（包括模型推理（1倍）、梯度（1倍）、优化器状态（AdamW 2倍，SGD 1倍）），也就是 ** 的 6-8 倍。但是从实际测试来看的话，全参数微调所需显存约为推理所需显存的10 倍左右，也即 ** 的20倍左右。

以下是模型不同微调方法时候的经验显存数值：

方法	bits	7B	13B	30B	65B	*87B**
全参数微调	16	160GB	320GB	600GB	1200GB	900GB
Freeze	16	20GB	40GB	120GB	240GB	200GB
LoRA	16	16GB	32GB	80GB	160GB	120GB
QLoRA	8	10GB	16GB	40GB	80GB	80GB
QLoRA	4	6GB	12GB	24GB	48GB	32GB