2023/4/11
该方法已过时,建议直接使用 pytorch自动混合精度。
手动 半精度不仅对模型的结构设计(例如 sqrt 函数,log函数的输入域需要限定)有很多的限制,还对Loss(模型输出会偏小,非常容易出现梯度消失)有限制。
2019/5/5更新
pytorch 1.1 版本相比1.0版本,对 half 训练优化了许多,nan发生的情况少了很多,现在应该可以日常使用 half 训练了
使用Adam优化器时,加入参数eps=1e-4
optimizer1 = optim.Adam(model.parameters(), lr=1e-3, eps=1e-4)
pytorch 半精度浮点数表示的范围比单精度的少很多
- 使网络输入 值域缩放到 [-1, 1] 或 [0, 1]
- 定义Adam优化器时,加入参数eps=1e-3
- 定义RMSprop优化器时,加入参数eps=1e-2
- 降低学习率
optimizer1 = optim.Adam(model.parameters(), lr=0.001, eps=1e-3)
optimizer2 = optim.RMSprop(model.parameters(), lr=0.001, eps=1e-2)