关于Loss突然变成nan的问题,网上大多搜出来都是梯度爆炸导致的,这里我们还是要分情况讨论
首先明确训练过程何时出现的nan
(1)一开始迭代loss就是nan:这种情况就属于梯度爆炸引起的loss值始终为nan
(2)到训练的中后期突然变成nan(训练能正常迭代n步):这不属于梯度爆炸,往往和计算loss时引入的log函数有关,也是本文重点解决问题
梯度爆炸引起的loss值为nan的解决方法
这类方法网上已有很多的说明
(1)减小学习率:1e-4~1e-6为宜,如果比1e-6还要小还是会出现nan,那就要考虑调整网络结构
(2)减小batch size:我个人觉得实在显存足够的情况下不太寄希望于这个参数太多…………
(3)引入正则项:例如在每一层的kernel_regularizer参数下引入l2正则项,这样可以不用考虑梯度裁剪(这一点后面会讲到)
(4)加入BN层:我一般加在激活函数之后,每一层都会加,网上关于BN层加在激活函数之前好还是之后好众说纷纭,还是自己做实验看看哪种效果好再决定
(5)对输入数据做归一化处理
(6)梯度裁剪:梯度裁剪的方式有两种
一种是对于部分梯度进行裁剪(我自己的理解就是由网络结构引入的梯度计算)
optimizer = tf.train.AdamOptimizer(learning_rate=0.001, beta1=0.5)
grads = optimizer.compute_gradients(loss)
for i, (g, v) in enumerate(grads):
if g is not None:
grads[i] = (tf.clip_by_norm(g, 5), v) # 阈值这里设为5
train_op = optimizer.apply_gradients(grads)
第二种是对于全局梯度计算完毕之后做裁剪
optimizer = tf.train.AdamOptimizer(learning_rate=0.001, beta1=0.5)
grads, variables = zip(*optimizer.compute_gradients(loss))
grads, global_norm = tf.clip_by_global_norm(grads, 5)
train_op = optimizer.apply_gradients(zip(grads, variables))
这两者的区别我看到别的博客说是计算时间上的差别,第二种会更加费时。由于我没有