模型训练时loss出现Nan的原因分析

最新推荐文章于 2024-07-18 16:06:05 发布

UpCoderXH

最新推荐文章于 2024-07-18 16:06:05 发布

阅读量8.9k

点赞数 6

分类专栏：深度学习文章标签： deep learning NAN

本文链接：https://blog.csdn.net/liangdong2014/article/details/89388692

版权

深度学习专栏收录该内容

27 篇文章 0 订阅

订阅专栏

                    
                    下面的分析都是基于tensorflow
数据不正确 
  比如说我们处理的实际是一个N分类问题的时候，在tensorflow中，我们计算cross entropy的时候将其当作一个M分类问题。如果N>M, 则在计算loss的时候不会报错，计算得到的loss直接就是NAN
 
学习率过大 
  有时候学习率过大也会导致NAN，为了判别这种错误，我们只需要将学习率设置为0，看是否会继续出现NAN，如果还会出现NAN，则可以排除这种错误。
 
激活函数有误 
  比如我们使用 
        
             x 
            
              1 
             
              2 
             
           x^{\frac{1}{2}} 
          
       x21​,作为激活函数的时候，其在x<=0处是不可导的，此时也会产生NAN的问题。
上述的例子也说明了，当我们在计算l2loss的时候为何不去开根号，而是保留平方的形式。
 
数据没有归一化 
  当我们做一个regression任务的时候，如果prediction没有归一化的话，可能会导致prediction值过大，在计算loss的之后容易产生过大的loss值，而导致梯度爆炸，出现NAN的情况。
 
出现一些异常操作 
  比如出现除以0，log 0等操作会导致NAN。比如说，我们在归一化的时候，分母是正样本的总数，但是batch内如果没有正样本呢？这时候我们就需要加入一个小的平滑项，或者是判断，如果是0，返回一个0.0。
 
。。。待续。

UpCoderXH

关注

6
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
模型训练时loss出现Nan的原因分析

下面的分析都是基于tensorflow数据不正确比如说我们处理的实际是一个N分类问题的时候，在tensorflow中，我们计算cross entropy的时候将其当作一个M分类问题。如果N>M, 则在计算loss的时候不会报错，计算得到的loss直接就是NAN学习率过大有时候学习率过大也会导致NAN，为了判别这种错误，我们只需要将学习率设置为0，看是否会继续出现NAN，如果...
复制链接

扫一扫

专栏目录