深度学习网络训练中出现nan的原因分析

最新推荐文章于 2024-05-29 14:17:27 发布

wzg2016

最新推荐文章于 2024-05-29 14:17:27 发布

阅读量4.9k

点赞数 3

分类专栏： tensorflow 文章标签：深度学习网络 tensorflow

本文链接：https://blog.csdn.net/Strive_For_Future/article/details/81625006

版权

tensorflow 专栏收录该内容

43 篇文章 1 订阅

订阅专栏

报错：

nan:Not a Number

该错误导致的后果：造成训练准确率的断崖式下跌

错误原因分析：

1）在loss函数中出现nan

出现原因：一般是因为tf中的log函数输入了‘负数’或‘0’值（出现log(0)*0的情况）
解决方法：使用tf.clip_by_value限制tf.log的输入值，例如：

cross_entropy = -tf.reduce_sum(y_*tf.log(tf.clip_by_value(y,1e-8,tf.reduce_max(y))))

cross_entropy = -tf.reduce_sum(y_*tf.log(tf.clip_by_value(y,1e-8,1e+100)))

cross_entropy = -tf.reduce_sum(y_*tf.log(y+1e-8))

safe_log = tf.clip_by_value(some_tensor, 1e-10, 1e100)

2）在更新网络时出现nan

出现原因：一般是学习率设置过高导致的（-->梯度值过大-->梯度爆炸）
解决方法：调低学习率

3）脏数据

出现原因:训练数据中存在脏数据，不适应当前网络，输出错误数值
解决方法：人工清理数据

训练深度学习网络时候，出现Nan是什么原因，怎么才能避免？ - 知乎

训练神经网络循环3000次后，交叉熵损失为nan原因？ - 知乎

训练深度学习网络时候，出现Nan是什么原因，怎么才能避免？——我自己是因为data有nan的坏数据，clear下解决 - bonelee - 博客园

wzg2016

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
深度学习网络训练中出现nan的原因分析

nan:Not a Number错误后果：造成训练准确率的断崖式下跌两种出现地点： 1）在loss函数中出现nan 出现原因：一般是因为tf中的log函数输入了‘负数’或‘0’值（出现log(0)*0的情况）解决方法：使用tf.clip_by_value限制tf.log的输...
复制链接

扫一扫