占用显存的计算 也就是说我们的模型占用的显存在不同阶段的计算方式是不同的,下面以Vgg16为例。 1、加载模型时 (1)计算方法 (2)计算示例 如上图所示 2、训练时 加载模型时除了memory for paramaters ,我们使用了Adam还要加上memory for param gradients,memory for moment等。 在训练的时候,因为有forward 和 backward,所以参数量要乘以2,再乘以batchsize。