混合精度训练-Automatic Mixed Precision

最新推荐文章于 2024-08-06 10:53:28 发布

AliceWanderAI

最新推荐文章于 2024-08-06 10:53:28 发布

阅读量1.2k

点赞数 1

分类专栏： NVIDIA GPU deep-learning 文章标签：深度学习人工智能神经网络

本文链接：https://blog.csdn.net/NXHYD/article/details/113952248

版权

本文介绍了自动混合精度训练(AMP)，它旨在利用半精度浮点数加速训练并节省内存，同时尽量减少精度损失。通过保存FP32权重副本、loss scaling和改进矩阵运算等方法，AMP在保持模型准确性的同时提高了训练效率。文章还提到了在TensorFlow、PyTorch、MXNet和PaddlePaddle等框架中应用AMP的指导。

摘要由CSDN通过智能技术生成

双/单/半精度浮点数

比较FP32&FP16

Automatic Mixed Precision（AMP）

双/单/半精度浮点数

以下简单对比双/单/半精度浮点数：

IEEE 754 Double Floating Point Format.svg

双精度浮点数：FP64（64bits=8bytes）

Float example.svg

单精度浮点数：FP32 （32bits=4bytes）

IEEE 754r Half Floating Point Format.svg

半精度浮点数：FP16 (16bits=4bytes)

可以看到，双/单/半精度浮点数表示的范围不同，因此存储它们所需要的硬件内存也不同了。

其中，一个FP16浮点数占用内存是FP32的一半，但是它所表示的范围也大大减少，因此，纯粹使用FP16进行模型训练，会带来严重的精度损失，甚至造成梯度underflow（下溢出）。

比较FP32&FP16

FP32的动态表示范围更大，在小数累积上有更高的精度；FP16的动态表示范围小，小数累加会丢失精度，但模型训练更快，且内存使用更高效。

某些OP要求有FP32的精度范围，比如：reductions, exponentiation.

对于V100来说，

FP32	FP16 with Tensor Cores
1 x compute throughput	8 x compute throughput
1 x memory throughput	2 x memory throughput
1 x memory storage	1/2 x memory storage

最低0.47元/天解锁文章

AliceWanderAI

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
混合精度训练-Automatic Mixed Precision

双/单/半精度浮点数在尽可能减少精度损失的情况下利用半精度浮点数（FP16）来加速训练。以下简单对比双/单/半精度浮点数：双精度浮点数：FP64（64bits=8bytes）单精度浮点数：FP32 （32bits=4bytes）半精度浮点数：FP16 (16bits=4bytes)可以看到，双/单/半精度浮点数表示的范围不同，因此存储它们所需要的硬件内存也不同了。其中，一个FP16浮点数占用内存是FP32的一半，但是它所表示的范围也大大减少，因此，纯粹使用FP16进行
复制链接

扫一扫

专栏目录