Tensorflow训练时某一个batch开始loss突然变为nan（tfdbg使用案例）

最新推荐文章于 2024-06-23 15:04:40 发布

chutongz

最新推荐文章于 2024-06-23 15:04:40 发布

阅读量2.9k

点赞数 5

分类专栏：原创文章标签： tensorflow loss nan bug

本文链接：https://blog.csdn.net/weixin_41864878/article/details/89317760

版权

本文分析了Tensorflow训练过程中loss值突然变为nan的两种常见情况：梯度爆炸和log(0)引入。对于梯度爆炸，提出了减小学习率、增加正则项、使用BN层、数据归一化和梯度裁剪等解决方法。对于log(0)问题，主要关注交叉熵计算中的0概率和使用tfdbg调试工具。还分享了如何利用tfdbg定位和修复nan值出现的位置。

摘要由CSDN通过智能技术生成

关于Loss突然变成nan的问题，网上大多搜出来都是梯度爆炸导致的，这里我们还是要分情况讨论
首先明确训练过程何时出现的nan
（1）一开始迭代loss就是nan：这种情况就属于梯度爆炸引起的loss值始终为nan
（2）到训练的中后期突然变成nan（训练能正常迭代n步）：这不属于梯度爆炸，往往和计算loss时引入的log函数有关，也是本文重点解决问题

梯度爆炸引起的loss值为nan的解决方法

这类方法网上已有很多的说明
（1）减小学习率：1e-4~1e-6为宜，如果比1e-6还要小还是会出现nan，那就要考虑调整网络结构
（2）减小batch size：我个人觉得实在显存足够的情况下不太寄希望于这个参数太多…………
（3）引入正则项：例如在每一层的kernel_regularizer参数下引入l2正则项，这样可以不用考虑梯度裁剪（这一点后面会讲到）
（4）加入BN层：我一般加在激活函数之后，每一层都会加，网上关于BN层加在激活函数之前好还是之后好众说纷纭，还是自己做实验看看哪种效果好再决定
（5）对输入数据做归一化处理
（6）梯度裁剪：梯度裁剪的方式有两种
一种是对于部分梯度进行裁剪（我自己的理解就是由网络结构引入的梯度计算）

optimizer = tf.train.AdamOptimizer(learning_rate=0.001, beta1=0.5)
grads = optimizer.compute_gradients(loss)
for i, (g, v) in enumerate(grads):
    if g is not None:
        grads[i] = (tf.clip_by_norm(g, 5), v)  # 阈值这里设为5
train_op = optimizer.apply_gradients(grads)

第二种是对于全局梯度计算完毕之后做裁剪

optimizer = tf.train.AdamOptimizer(learning_rate=0.001, beta1=0.5)
grads, variables = zip(*optimizer.compute_gradients(loss))
grads, global_norm = tf.clip_by_global_norm(grads, 5)
train_op = optimizer.apply_gradients(zip(grads, variables))

这两者的区别我看到别的博客说是计算时间上的差别，第二种会更加费时。由于我没有

最低0.47元/天解锁文章

chutongz

关注

5
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
Tensorflow训练时某一个batch开始loss突然变为nan（tfdbg使用案例）

关于Loss突然变成nan的问题，网上大多搜出来都是梯度爆炸导致的，这里我们还是要分情况讨论首先明确训练过程何时出现的nan（1）一开始迭代loss就是nan：这种情况就属于梯度爆炸引起的loss值始终为nan（2）到训练的中后期突然变成nan（训练能正常迭代n步）：这不属于梯度爆炸，往往和计算loss时引入的log函数有关，也是本文重点解决问题梯度爆炸引起的loss值为nan的解决方法...
复制链接

扫一扫

专栏目录