一个关键的原则:”仅仅在权重更新的时候使用fp32,耗时的前向和后向运算都使用fp16.",其中的一个技巧是,在反向计算开始前,将dloss乘上一个scale,人为变大,权重更新前,除去scale,恢复正常值。目的是为了减小激活gradient下溢出的风险。
fp16:半精度
如何在pytorch中使用fp16混合精度训练呢?
nn.Module中的half()方法将模型中的float32转化为float16,实现的原理是遍历所有tensor,而float32和float16都是tensor的属性,也就是说,一行代码解决,如下
model.half()
总结:
1、深度学习训练使用16bit表示/运算正逐渐成为主流。
2、低精度带来了性能、功耗优势,但需要解决量化误差(溢出,舍入)
3、常见的避免量化误差的方法:为权重保持高精度fp32备份,损失放大,避免梯度的下溢出,一些特殊层(如batchnorm)仍使用fp32运算。