混合精度训练-Automatic Mixed Precision

本文介绍了自动混合精度训练(AMP),它旨在利用半精度浮点数加速训练并节省内存,同时尽量减少精度损失。通过保存FP32权重副本、loss scaling和改进矩阵运算等方法,AMP在保持模型准确性的同时提高了训练效率。文章还提到了在TensorFlow、PyTorch、MXNet和PaddlePaddle等框架中应用AMP的指导。
摘要由CSDN通过智能技术生成

目录

双/单/半精度浮点数

比较FP32&FP16

Automatic Mixed Precision(AMP)

AMP如何减少精度损失呢?

为每个权重保存一份FP32的副本

Loss Scaling

改进矩阵运算

为每个OP使用最佳精度

如何应用AMP

TensorFlow

PyTorch

MXNet

PaddlePaddle


双/单/半精度浮点数

以下简单对比双/单/半精度浮点数:

IEEE 754 Double Floating Point Format.svg

双精度浮点数:FP64(64bits=8bytes)

Float example.svg

单精度浮点数:FP32 (32bits=4bytes)

IEEE 754r Half Floating Point Format.svg

半精度浮点数:FP16 (16bits=4bytes)

可以看到,双/单/半精度浮点数表示的范围不同,因此存储它们所需要的硬件内存也不同了。

其中,一个FP16浮点数占用内存是FP32的一半,但是它所表示的范围也大大减少,因此,纯粹使用FP16进行模型训练,会带来严重的精度损失,甚至造成梯度underflow(下溢出)。

比较FP32&FP16

FP32的动态表示范围更大,在小数累积上有更高的精度;FP16的动态表示范围小,小数累加会丢失精度,但模型训练更快,且内存使用更高效。

某些OP要求有FP32的精度范围,比如:reductions, exponentiation.

对于V100来说,

FP32 FP16 with Tensor Cores
1 x compute throughput 8 x compute throughput
1 x memory throughput 2 x memory throughput
1 x memory storage 1/2 x memory storage
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值