pytorch1.1 半精度训练 Adam RMSprop 优化器 Nan 问题

ONE_SIX_MIX

已于 2023-04-11 10:35:09 修改

阅读量6k

点赞数 6

分类专栏：神经网络 python 深度学习文章标签： pytorch 半精度

于 2019-01-12 17:24:32 首次发布

本文链接：https://blog.csdn.net/one_six_mix/article/details/86367086

版权

54 篇文章 0 订阅

订阅专栏

44 篇文章 1 订阅

订阅专栏

33 篇文章 0 订阅

订阅专栏

2023/4/11
该方法已过时，建议直接使用 pytorch自动混合精度。
手动半精度不仅对模型的结构设计（例如 sqrt 函数，log函数的输入域需要限定）有很多的限制，还对Loss（模型输出会偏小，非常容易出现梯度消失）有限制。

2019/5/5更新
pytorch 1.1 版本相比1.0版本，对 half 训练优化了许多，nan发生的情况少了很多，现在应该可以日常使用 half 训练了
使用Adam优化器时，加入参数eps=1e-4

optimizer1 = optim.Adam(model.parameters(), lr=1e-3, eps=1e-4)

pytorch 半精度浮点数表示的范围比单精度的少很多

optimizer1 = optim.Adam(model.parameters(), lr=0.001, eps=1e-3)
optimizer2 = optim.RMSprop(model.parameters(), lr=0.001, eps=1e-2)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注