b站看视频的时候李沐老师将学习率从0.001改成10,loss就出现了nan,老师的解释是说求导过程可能分母出现了0,但学习率lr压根不参与求导,只影响参数迭代的变化值,所以我简单更改了一下梯度更新代码
每次梯度更新打印一遍参数,结果如下:
可以看出是参数迭代超出了计算机的计数范围,而不是梯度出现无穷值
b站看视频的时候李沐老师将学习率从0.001改成10,loss就出现了nan,老师的解释是说求导过程可能分母出现了0,但学习率lr压根不参与求导,只影响参数迭代的变化值,所以我简单更改了一下梯度更新代码
每次梯度更新打印一遍参数,结果如下:
可以看出是参数迭代超出了计算机的计数范围,而不是梯度出现无穷值