【百度、NVIDIA】混合精度训练 Mixed Precision Training

《Mixed Precision Training》

思路如图1,

【百度、NVIDIA】混合精度训练 <wbr>Mixed <wbr>Precision <wbr>Training

简单说,权值用32位保存,然后训练过程中截断为16位,而后weight和activation都用FP16来计算,最后更新还是使用FP32的权值。

两种方法来控制半精度的信息损失。

一、保存一个单精度浮点的权值备份。在训练过程中舍入到半精度。(加速训练?减少硬件开销?但是没有减少存储的参数量)

二、适当地缩放损失

结果:

精度没有损失,

memory减少约一半,

速度更快。

所有的过程用的是半精度FP16;

没有超参需要针对调整;这种方法对比单精度没有精度损失;

可以用于大部分模型(可以用于大数据集)

 

亮点:两种方法来控制半精度的信息损失。

一、保存一个单精度浮点的权值备份。在训练过程中舍入到半精度。(加速训练、减少硬件开销、存储的参数量增加了50%,但是由于减少了过程中的activation,所以总体来说还是减少了memory的消耗);

同时FP16在硬件实现中更快。

 

假如单纯的使用FP16训练,精度降低了80%,所以要使用32位量化训练,但是参数更新过程使用16位。

 

为什么需要FP32:

l  有些梯度太小,在FP16就变成0,大约有5%的数据被忽略成0(感觉不是很合理,毕竟2^-24太小了影响不大)

l  有些数太大,即使在FP16下可以表示,当加法右移操作使它二进制点对齐时,仍然可能变为0

 

 

二、适当地缩放数值。

等于是把图三整体右移,即scaling up方法是乘以8即右移三位

【百度、NVIDIA】混合精度训练 <wbr>Mixed <wbr>Precision <wbr>Training

实验过程很完善,在ILSVRC、Detection CNN、Speech Recognition、Machine Translation、Language Modeling、DCGAN都做了实验。

 

TensorFlow 2.5 中的混合精度训练可以通过使用 tf.keras.mixed_precision API 来实现。混合精度训练可以加快训练速度,同时减少 GPU 内存的使用。 要使用混合精度训练,需要先将模型的 dtype 设置为 float16,然后使用 tf.keras.mixed_precision.experimental.set_policy() 函数来设置混合精度策略。 以下是一个使用混合精度训练的示例: ```python import tensorflow as tf from tensorflow import keras from tensorflow.keras import layers from tensorflow.keras.mixed_precision import experimental as mixed_precision # 设置混合精度策略 policy = mixed_precision.Policy('mixed_float16') mixed_precision.set_policy(policy) # 构建模型 model = keras.Sequential([ layers.Dense(64, input_shape=(32,), activation='relu'), layers.Dense(10, activation='softmax') ], dtype='float16') # 编译模型 model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy']) # 加载数据集 (train_images, train_labels), (test_images, test_labels) = keras.datasets.mnist.load_data() train_images = train_images.reshape((60000, 28 * 28)).astype('float16') / 255 test_images = test_images.reshape((10000, 28 * 28)).astype('float16') / 255 # 训练模型 model.fit(train_images, train_labels, epochs=10, validation_data=(test_images, test_labels)) ``` 在上面的示例中,我们先设置混合精度策略,然后构建模型时将 dtype 设置为 float16,编译模型时指定优化器、损失函数和评估指标,最后使用 fit() 函数训练模型。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值