尝试解决方案(未解决): 担心发生梯度爆炸造成的,将学习率调为了0,但在第二轮任然变成了nan 最终解决方案(解决) 原因:使用了半精度进行更新或者参与,导致的 方法:将其中参与的half替换成float即可解决 loss.backward() model.float() # add this here optimizer.step()