Tensorflow训练时某一个batch开始loss突然变为nan(tfdbg使用案例)

本文分析了Tensorflow训练过程中loss值突然变为nan的两种常见情况:梯度爆炸和log(0)引入。对于梯度爆炸,提出了减小学习率、增加正则项、使用BN层、数据归一化和梯度裁剪等解决方法。对于log(0)问题,主要关注交叉熵计算中的0概率和使用tfdbg调试工具。还分享了如何利用tfdbg定位和修复nan值出现的位置。
摘要由CSDN通过智能技术生成

关于Loss突然变成nan的问题,网上大多搜出来都是梯度爆炸导致的,这里我们还是要分情况讨论
首先明确训练过程何时出现的nan
(1)一开始迭代loss就是nan:这种情况就属于梯度爆炸引起的loss值始终为nan
(2)到训练的中后期突然变成nan(训练能正常迭代n步):这不属于梯度爆炸,往往和计算loss时引入的log函数有关,也是本文重点解决问题

梯度爆炸引起的loss值为nan的解决方法

这类方法网上已有很多的说明
(1)减小学习率:1e-4~1e-6为宜,如果比1e-6还要小还是会出现nan,那就要考虑调整网络结构
(2)减小batch size:我个人觉得实在显存足够的情况下不太寄希望于这个参数太多…………
(3)引入正则项:例如在每一层的kernel_regularizer参数下引入l2正则项,这样可以不用考虑梯度裁剪(这一点后面会讲到)
(4)加入BN层:我一般加在激活函数之后,每一层都会加,网上关于BN层加在激活函数之前好还是之后好众说纷纭,还是自己做实验看看哪种效果好再决定
(5)对输入数据做归一化处理
(6)梯度裁剪:梯度裁剪的方式有两种
一种是对于部分梯度进行裁剪(我自己的理解就是由网络结构引入的梯度计算)

optimizer = tf.train.AdamOptimizer(learning_rate=0.001, beta1=0.5)
grads = optimizer.compute_gradients(loss)
for i, (g, v) in enumerate(grads):
    if g is not None:
        grads[i] = (tf.clip_by_norm(g, 5), v)  # 阈值这里设为5
train_op = optimizer.apply_gradients(grads)

第二种是对于全局梯度计算完毕之后做裁剪

optimizer = tf.train.AdamOptimizer(learning_rate=0.001, beta1=0.5)
grads, variables = zip(*optimizer.compute_gradients(loss))
grads, global_norm = tf.clip_by_global_norm(grads, 5)
train_op = optimizer.apply_gradients(zip(grads, variables))

这两者的区别我看到别的博客说是计算时间上的差别,第二种会更加费时。由于我没有

  • 5
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值