NaNs问题(Dealing with NaNs)
相信很多自己实现过深度学习模型或者训练过深度学习模型的人都会知道,产生NaNs或者Infs是一件特别常见的事情。但是NaNs的问题又往往很棘手,因为出现NaN的原因可能有很多,诊断起来并不容易。
这可能是因为模型中某个地方设置的不是特别合理,或者代码中出现了Bug。也有可能是出现了数值不稳定,数值不稳定问题会进行单独说明。甚至也可能是你的算法出了问题,下面将介绍几种出现NaNs的场景以及如何进行诊断并处理模型训练过程中出现的NaNs。
超参数的设置以及权重初始化(Check Superparameters and Weight Initialization)
通常情况下,尤其是你使用深度学习库训练时,原因大多是超参数设置问题。
最可能是就你的学习率设置过大。一个过大的学习率可能在一个epoch里就让你整个模型产生NaN的输出,所以首先检查学习率,最简单的办法就是设置一个小的学习率。
其次,你的模型里有正则化项吗?看正则项是否设置合理,选择一个大的正则项系数来训练几个epoch看下NaNs有没有消失。
还有一些模型可能对权重的初始化十分敏感,如果权重没有采用合理的初始化方法,或者合适的初始化范围,模型可能会产生NaNs。
关于数值稳定(Numerical Stability)
如果你最终诊断发现是在某个公式计