Tensorflow 3. 训练过程，出现loss=NAN的问题？

最新推荐文章于 2024-06-11 10:14:44 发布

prince谢晓峰

最新推荐文章于 2024-06-11 10:14:44 发布

阅读量9.4k

点赞数 1

分类专栏：人工智能文章标签： Tensorflow Deep Learning

本文链接：https://blog.csdn.net/princexiexiaofeng/article/details/79975964

版权

人工智能专栏收录该内容

9 篇文章 6 订阅

订阅专栏

① 问题可能原因：

1. 如果在迭代的100轮以内，出现NaN，一般情况下的原因是因为学习率过高，需要降低学习率。我们可以不断降低学习率直至不出现NaN为止，一般来说低于现有学习率1→10倍即可；
2. 如果当前的网络是类似于RNN的循环神经网络的话，出现NaN可能是因为梯度爆炸的原因，一个有效的方式是增加“gradient clipping”（梯度截断来解决）；
3. 可能用0作为了除数；
4. 可能0或者负数作为自然对数；
5. 需要计算loss的数组越界（尤其是自定义了一个新的网络时，可能出现这种情况）；
6. 在某些涉及指数计算，可能最后算得值为INF（比如不做其他处理的softmax中分子分母需要计算exp(x)，值过大，最后可能为INF/INF，得到NaN，此时需要确认我们使用的softmax中计算exp(x)时做了相关处理（比如减去最大值等等））。

② 我遇到的问题和解决方法：

已经进行gradient clipping、计算过程没有出现0为除数；调整learning_rate=0.15→0.015、'adagrad_init_acc'=0.1→0.01之后，仍然报错loss=NAN；调整batch_size=1之后，报错内容为Training error: "TensorArray has size zero, but element shape <unknown> is not fully defined."；最后发现数据集中存在empty string，剔除空数据之后解决了。

prince谢晓峰

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
Tensorflow 3. 训练过程，出现loss=NAN的问题？

① 问题可能原因： 1. 如果在迭代的100轮以内，出现NaN，一般情况下的原因是因为学习率过高，需要降低学习率。我们可以不断降低学习率直至不出现NaN为止，一般来说低于现有学习率1→10倍即可； 2. 如果当前的网络是类似于RNN的循环神经网络的话，出现NaN可能是因为梯度爆炸的原因，一个有效的方式是增加“gradient clipping”（梯度截断来解决）； 3. 可能用0作为了除...
复制链接

扫一扫