应对loss为nan的问题
把学习率再调小一点
configs/experiment/vocals_dis.yaml
里
-
降低学习率
把lr从0.000025改成 0.000005
-
梯度裁剪
原本是
trainer: devices: 4 # int or list sync_batchnorm: True track_grad_norm: 2 # resume_from_checkpoint: /home/wujunyu/DTTNet-Pytorch/check_points/vocals_vocals_g32_10/checkpoints/last.ckpt # gradient_clip_val: 5
然后可以把
gradient_clip_val: 5
的注释去掉 -
修改模型
如果学习率改的很小还是nan,那么,模型里面可能梯度太大了,得调整一下模型的结构了(学习率太小学的很慢的)
PS:因为最后不打算做这个方向了,所以也没进一步修改模型。(肯定是得进一步修改模型的,激活函数,标准化函数,还有模型结构等等)