根据网上的资料,可能的情况就是1. 梯度太大。2. 计算过程中可能出现了除零的出错。
试过改变梯度无效后,确定问题出在其中一个自定义的loss函数,必须把这个函数的每一步计算是否导致零考察。
关于pytorch自动求导的基本介绍如下:
https://www.cnblogs.com/hellcat/p/6851761.html
设计如下测试,
a = torch.ones(2, 2, requires_grad=True) b = torch.ones(2, 2, requires_grad=True) a = a + 0.001 #b = b + 0.002 x = (a - b).pow_(2).sum(1).sqrt_() # 该函数中的a如果等于b,会导致反向之后a和b的梯度为nan。 out = (x*x).mean() out = out.backward() print(a.grad) # 查看输入张量的梯度
可以得出是pow和sum,sqrt中的一个函数出错,不细究了。仅此记录