减小Batch_size优化网络结构,或者改用深度可分离卷积代替常规卷积核,较小参数数量选择更小的数据类型 一般默认情况下, 整个网络中采用的是32位的浮点数,如果切换到 16位的浮点数,其显存占用量将接近呈倍数递减做梯度累积,将loss划分为n,即loss = loss / n 当执行完n步再进行梯度更新 https://blog.csdn.net/zhuiqiuk/article/details/90973240