SFT:全参数微调包含梯度、优化器激活1B精度-fp32-模型大约需要4GB梯度显存(每个参数都需要有一个梯度):4GB优化器显存:以adamw优化器为例,他需要自身参数+参数动量+参数方差=4GB+4GB+4GB=12GB;PEFT:需要的显存与模型没有大的区别,主要看PEFT部分,大概是几M到几GB。