Pytorch半精度浮点型网络训练问题

最新推荐文章于 2024-03-26 21:52:13 发布

weixin_30716141

最新推荐文章于 2024-03-26 21:52:13 发布

阅读量2.5k

点赞数 1

文章标签：人工智能 python

原文链接：http://www.cnblogs.com/yanxingang/p/10148712.html

版权

用Pytorch1.0进行半精度浮点型网络训练需要注意下问题：

1、网络要在GPU上跑，模型和输入样本数据都要cuda().half()

2、模型参数转换为half型，不必索引到每层，直接model.cuda().half()即可

3、对于半精度模型，优化算法，Adam我在使用过程中，在某些参数的梯度为0的时候，更新权重后，梯度为零的权重变成了NAN，这非常奇怪，但是Adam算法对于全精度数据类型却没有这个问题。

　　另外，SGD算法对于半精度和全精度计算均没有问题。

还有一个问题是不知道是不是网络结构比较小的原因，使用半精度的训练速度还没有全精度快。这个值得后续进一步探索。

对于上面的这个问题，的确是网络很小的情况下，在1080Ti上半精度浮点型没有很明显的优势，但是当网络变大之后，半精度浮点型要比全精度浮点型要快。但具体快多少和模型的大小以及输入样本大小有关系，我测试的是要快1/6，同时，半精度浮点型在占用内存上比较有优势，对于精度的影响尚未探究。

将网络再变大些，epoch的次数也增大，半精度和全精度的时间差就表现出来了，在训练的时候。

转载于:https://www.cnblogs.com/yanxingang/p/10148712.html

weixin_30716141

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Pytorch半精度浮点型网络训练问题

用Pytorch1.0进行半精度浮点型网络训练需要注意下问题：1、网络要在GPU上跑，模型和输入样本数据都要cuda().half()2、模型参数转换为half型，不必索引到每层，直接model.cuda().half()即可3、对于半精度模型，优化算法，Adam我在使用过程中，在某些参数的梯度为0的时候，更新权重后，梯度为零的权重变成了NAN，这非常奇怪，但是Adam算法对...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。