Training Neural Networks with Mixed Precision
FP16可以加速训练、支持更大Batch、通信代价也会降低、还能提供一定正则。
注意点:
数值范围更改,大数小数调整,如1e9, -1e9这样的数得注意。-1e9改成-6e4
loss_scale, 移动取值,能缓解fp16的精度问题。
logits转为32位。
LayerNorm, BN须32位模式 (否则不收敛)。
Softmax基本没影响
Training Neural Networks with Mixed Precision
FP16可以加速训练、支持更大Batch、通信代价也会降低、还能提供一定正则。
注意点:
数值范围更改,大数小数调整,如1e9, -1e9这样的数得注意。-1e9改成-6e4
loss_scale, 移动取值,能缓解fp16的精度问题。
logits转为32位。
LayerNorm, BN须32位模式 (否则不收敛)。
Softmax基本没影响