梯度爆炸由于初始化权值过大,前面层会比后面层变化的更快,就会导致权值越来越大,梯度爆炸的现象就发生了。
模型无法从训练数据中获得更新(如低损失)。
模型不稳定,导致更新过程中的损失出现显著变化。
训练过程中,loss变成 NaN or 大于了设定的阈值
1.如果是同一步出现了爆炸或者loss突然增大,很有可能是training data中的某条数据有问题(建议有一个监测网络每次过滤掉问题值)
2.重新开始训练的时候learning rate 过大。
3.用gradient clipping