pytorch debug笔记：当训练过程中loss忽然变为 nan

最新推荐文章于 2022-04-02 10:21:47 发布

沃·夏澈德

最新推荐文章于 2022-04-02 10:21:47 发布

阅读量1k

点赞数 4

分类专栏： debug笔记文章标签： pytorch 深度学习 nan debug

本文链接：https://blog.csdn.net/aaalswaaa1/article/details/120995126

版权

debug笔记专栏收录该内容

2 篇文章 1 订阅

订阅专栏

原因有很多，此处给出是除0 产生的问题。但排查思路是相通的。方法较原始，但有效。

首先在网络的每个步骤后添加一个if，看是否产生 nan

def forward(self, source):
        source = self.blocks(source)
        if torch.any(torch.isnan(source)):
            print(1)

        source = source.view(source.size()[0], -1)  # Flatten
        
        source_clf = self.classifierBlock(source)
        if torch.any(torch.isnan(source_clf)):
            print(1)

        return source_clf

给每个print（1）打上断点，然后调试，等程序跳进断点，此时是第一次出现nan，因此可以追查问题，不然后面一更新就全是nan了。

把断点的print（1）换成打印参数

if torch.any(torch.isnan(tranfer_loss)):
    for parameters in self.bottleneckBlock.parameters():
       print(parameters)

看看是否是权重的原因，同时看看前面的是否有为0的输出，作为这一层的输入。

找到0的位置，发现是Relu失活导致的，换成leakyRelu就好了。

沃·夏澈德

关注

4
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
pytorch debug笔记：当训练过程中loss忽然变为 nan

原因有很多，此处给出是除0 产生的问题。但排查思路是相通的。方法较原始，但有效。首先在网络的每个步骤后添加一个if，看是否产生 nandef forward(self, source): source = self.blocks(source) if torch.any(torch.isnan(source)): print(1) source = source.view(source.size()[0], -1) #
复制链接

扫一扫