混合精度训练

最新推荐文章于 2024-04-17 13:34:37 发布

leo0308

最新推荐文章于 2024-04-17 13:34:37 发布

阅读量1.4k

点赞数

分类专栏：基础知识

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/leo0308/article/details/117399985

版权

基础知识专栏收录该内容

39 篇文章 3 订阅

订阅专栏

1 什么是混合精度训练？

通常说的混合精度训练是指float32与float16的混合。混合精度训练比较经典的工作是百度和Nvidia等提出的MIXED PRECISION TRAINING （https://arxiv.org/pdf/1710.03740.pdf)

2 为什么要混合精度训练？

通常的训练都是用float32进行的，但随着深度网络的发展，模型变得越来越大，对计算和存储都提出了巨大的挑战。 float16 的存储天然只有float32的一半，那么用float16代替float32就能减小一半的存储需求，同时加快计算的过程(计算不是天然的加快一倍，取决于硬件的支持以及相应的优化)。

3 混合精度训练需要解决的问题

但硬币都是有两面的，用float16部分代替float32 固然可以带来存储和计算的性能提升，但float16 所能表示的数据的范围和精度也天然比float32差很多（参考：彻底搞懂float16与float32的计算方式），如果直接用float16代替float32 很容易造成精度的损失。

混合精度训练面临的主要问题有两个方面：

3.1 数据溢出

在彻底搞懂float16与float32的计算方式中讲到， float16 的有效动态范围是 5.960464477539063e-08 ~65504 ，而flaot32的有效动态范围是 1.401298464324817e-45~3.4028234663852886e+38 。
数据溢出包括上溢和下溢，上溢是指数据超出float16 有效动态范围的最大值，下溢是指数据超出float16有效动态范围的的最小值。在深度学习中，最主要的下溢。例如在训练的后期，激活函数的梯度会非常小，乘以学习率后会更小，很容易发生下溢。

3.2 舍入误差

4 混合精度训练的效果

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
混合精度训练

1 什么是混合精度训练？通常说的混合精度训练是指float32与float16的混合。混合精度训练比较经典的工作是百度和Nvidia等提出的MIXED PRECISION TRAINING （https://arxiv.org/pdf/1710.03740.pdf)2 为什么要混合精度训练？通常的训练都是用float32进行的，但随着深度网络的发展，模型变得越来越大，对计算和存储都提出了巨大的挑战。 float16 的存储天然只有float32的一半，那么用float16代替float32就能减
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。