python 去除nan inf_学习笔记0522：Tensorflow训练模型出现loss是nan的问题排查

weixin_39689506

于 2020-11-27 06:08:08 发布

阅读量490

点赞数

文章标签： python 去除nan inf

想要实现一个类似简单版EGES的网络，之前加入了全连接等网络，效果很差，因此想要还原一下简单的skip-gram，不要那些复杂网络结构，但是出现了nan的问题。

搜罗了网上好多资料，经历了漫长的排查历程，如下：

添加batch normalization
修改负采样个数
减小学习率
改小batch size
添加归一化
对loss进行剪裁
对梯度进行剪裁
检查原始数据是否存在缺失

以上。。。都不好使。。。

更加诡异的是，添加一层全连接层，就可以了？？？

最终借助tensorflow的debug工具，感谢这位朋友。https://zhuanlan.zhihu.com/p/30940784

sess = tf_debug.LocalCLIDebugWrapperSession(sess, thread_name_filter="MainThread$")
sess.add_tensor_filter("has_inf_or_nan", tf_debug.has_inf_or_nan)
# run -f has_inf_or_nan

在运行的python后面添加 --debug=True

不过debug工具刚开始也有一点小bug，现在也没太解决，不过好歹给我定位到哪里出了nan

这两行，第一行是首次出现nan的位置。

刚看到的时候，翻白眼，这不是废话吗，我当然知道nan是出现在loss上面啦。

再看一眼，what？不是网络训练产生的losses，而是正则的loss

最终解决：由于网络改的过于简单，并没有加入正则，而计算loss时，加入了正则损失，因此，这一项没有变量进来，产生了nan。

虽然有点蠢，但是在网上真没搜到这个原因，是以为记，继续炼丹去了。。。

weixin_39689506

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python 去除nan inf_学习笔记0522：Tensorflow训练模型出现loss是nan的问题排查

想要实现一个类似简单版EGES的网络，之前加入了全连接等网络，效果很差，因此想要还原一下简单的skip-gram，不要那些复杂网络结构，但是出现了nan的问题。搜罗了网上好多资料，经历了漫长的排查历程，如下：添加batch normalization修改负采样个数减小学习率改小batch size添加归一化对loss进行剪裁对梯度进行剪裁检查原始数据是否存在缺失以上。。。都不好使。。。更加诡异的是...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。