tensorflow NAN常见原因和解决方法

最新推荐文章于 2021-08-20 17:33:37 发布

苏冉旭

最新推荐文章于 2021-08-20 17:33:37 发布

阅读量1.4w

点赞数 25

分类专栏：机器学习文章标签： tensorflow 机器学习 NAN

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/suranxu007/article/details/87266191

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

最近遇到NAN的问题，花了很久才真正解决。发现网上大部分解决方法都不对或者不彻底，因此单独总结一下。

一、NAN原因

所有NAN都是这个原因：正向计算时节点数值越界，或反向传播时gradient数值越界；

无论正反向，数值越界基本只有三种操作会导致：

a) 节点/W/gradient数值逐渐变大直至越界

b) 有除零操作，包括0/0。

c) 输入数据存在异常，过大/过小的输入，导致瞬间NAN

二、现象

两者的现象可能一样，绝大多数情况下，NAN都发生在训练一段时间后，报loss NAN，如果你打印了gradient也可能先报gradient NAN。

三、危险信号

输入没有归一化、tf.sqrt(), relu()+cosine(), 全relu()激活, 过大的learning rate

如果你的NN网络中包含上述三种情况的任何一个，则极有可能触发NAN

四、解决方法

0）首先检查你的输入

如果你的输入feature没有归一化，离线归一化到0~1；如果已经归一化，但是不确定是否有个别异常数据，使用tf.clip_by_value(feature, 0.0, 1.0) 对数据进行异常截断。

1) 不推荐：前向网络内部使用 tf.clip_by_value

网上常见这种方法。这种方法不太好；前向计算时对节点使用会导致梯度消失。反向传播时对gradient使用过于严苛。可以使用tf.clip_by_globalnorm(gradients, clip_norm=1.0) 让收敛更加稳定。该函数在梯度小时不进行操作，在梯度过大时进行全局归一化而不是直接对个别graident截断。对NAN改善有辅助作用。但如果当前代码存在0/2/3/4问题，则不能寄希望于该方法解决已有的NAN问题。

2）检查正向计算运算边界

现象：loss值或predict score值逐渐变大或有大幅波动，直至NAN

场景：如果你的前向计算都是relu()激活，缺少类似cosine/tanh/sigmoid/layer_norm这种带有归一化能力的激活或norm操作，则很可能随着W方差的增大，出现个别节点数值过大的问题。

解决方法：

a) 减少learning_rate。尝试把lr减少10倍、50倍、100倍。百试不爽，该类问题绝大部分可以得到解决（注意lr也别太小，否则收敛过慢浪费时间，要在速度和稳定性之间平衡）

b) loss增加L2正则，避免随着迭代W越来越大，直至线性运算结果越界；一般L2后不会再NAN，但要注意对效果的影响，如果效果显著变差则不推荐使用。

c) 检查你的variable初始化值域，确保w初始值足够小，常用初始化|w|<<1; 推荐使用 tf.truncated_normal_initializer(stddev=0.02)

d) 若仍然不行，则应考虑在尽量靠前的位置增加tanh/cosine等有收敛边界的激活函数，但这会影响梯度传播，慎用，尽量使用前几种方法。

3）检查正向运算除0操作

现象：loss值或predict score正常且稳定，甚至逐渐收敛，但突然loss NAN

场景：数据中存在某些值，导致除0。常见于除法操作、归一化操作或cosine计算中。正向除零比较好发现，也比较好改，但应注意正向改好后反向是不是还有问题。

解决方法：

a) ctrl+F 检查所有tf.div和/关键字，确保分母不会为0. 对于分母>=0的情景，可以使用+0.001这种方式保证非0

b) 应警惕在上一步修改后，反向梯度是否仍有除0场景。如cosine中，若分母为0，则反向梯度也是NAN，只改正向是不够的

4）检查反向除0操作

现象：与3相同

场景：

a) 所有的开方操作，如开平方 y=tf.sqrt(a) 如果a为0或接近与0，会导致gradient(y,a)=NAN

b) cosine操作，y=cosine(a, b)，如果||a||或||b||接近0（由于有6次方操作，a[*]均<0.01就会导致float越界），gradient会NAN；这种情况在a=relu(c), b=relu(d)的时候会非常严重，因为relu()有一定概率输出全零值。

解决方法：

a) 搜索所有tf.sqrt，尽量删除。如loss=均方差（y,y_)，千万不要在均方差外面再套一个开方。否则当loss接近与0时会梯度NAN

b) 对于relu()+cosine()。删除relu()操作，cosine前不要加激活函数，cosine本来就是非线性变换，不需要两个紧邻的非线性变换。线性计算得到的a，b, 基本不会有L2接近0的情形。

五、参考资料

https://stackoverflow.com/questions/33962226/common-causes-of-nans-during-training

https://stackoverflow.com/questions/44497446/loss-in-tensorflow-suddenly-turn-into-nan

版权声明：转载请注明出处：苏冉旭的博客 https://blog.csdn.net/suranxu007/article/details/87266191

关注

25
点赞
踩
56

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄17年

18
原创

70
点赞

109
收藏

63
粉丝

关注

私信

热门文章

分类专栏

最新评论

tensorflow NAN常见原因和解决方法
skyous: 今天我也出现这个问题，发现有一张输入tensorflow为nan,原来归一化时max = min了导致异常，感谢提供灵感
GBDT（MART）迭代决策树入门教程 | 简介
苏冉旭: 感谢肯定~
GBDT（MART）迭代决策树入门教程 | 简介
夜半歌声丶: 看了这么多文章，这篇写的是真的好
GBDT（MART）迭代决策树入门教程 | 简介
苏冉旭: 1）gbdt相对于单颗树更不容易过拟合，主要原因和例子类似，就是通过boosting机制，在树的深度相对较小的前提下达到较好的拟合效果。即让每棵树在分裂时保持分类节点的instance都相对较多。而传统决策树算法，为了达到较小的训练集误差，只能不断增加树的深度来实现，就更容易过拟合。当然这是相对的，任何一个算法都无法硬性保证没有过拟合问题，这与训练集大小，特征多少，超参设置都是相关的。 2）GBDT的过拟合发现和任何算法的过拟合发现并没有什么不同。最直观的手段就是同时评估训练集指标与测试集指标，当训练集指标持续向好但测试集指标持续向差时，就发生了过拟合。通用做法是网格搜索，不过boosting tree的特点是树的数量是逐步累加的，通过观察截止不同树的数量时，两个集合指标变化情况，可以比较准确地找到这个时刻，这个倒是boosting算法独有的优势。 3）如果发生过拟合，首先考虑调整超参，减少每棵树的深度，减小learning rate，适度调整树的个数；同时考虑精简特征数量，增大训练集数量。
GBDT（MART）迭代决策树入门教程 | 简介
applicatee2: 很舒服，有几个问题想问： 1）GBDT也有过拟合的问题吧？按照举的例子看是没有，但是每颗树在生长过程中不可避免的有过拟合吧（根据设置的每颗树的深度） 2）GBDT的过拟合怎么发现，怎么处理呢？

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。