7b = 7billion = 7*10^9 个参数(1billion就是10亿就是9个0)
fp32精度,一个参数4byte,1G=10^9 byte, 所以 7b就占7*4GB。
fp16精度,一个参数2byte, 7b就占7*2GB
int8精度,一个参数1byte, 7b就占7*1GB
混合精度(fp16/32), 存储fp16精度+fp32精度 = 14GB +28GB = 42GB
此外,训练时占内存的还有梯度(和模型参数本身大小一样),优化器(如使用adam,是模型本身大小*2,因为要计算动量和方差)