计算资源消耗 计算资源的消耗分成: 模型参数本身的存储。模型参数的梯度以及梯度momentum的存储。token的传播过程 例如以llama3-7b为例: 模型参数存储: 模型参数量 * fp32 例如llama3-70b为例,7 * 10^9 * 4 模型参数的梯度以及momentum存储:模型参数量 * fp32 ; 模型参数量 * fp32activition : 一个batch的token数量* embed维度 * 传播层数 * fp32