pytorch中loss为nan值

最新推荐文章于 2024-04-29 09:50:35 发布

依旧seven

最新推荐文章于 2024-04-29 09:50:35 发布

阅读量1.6k

点赞数 3

分类专栏： pytorch

本文链接：https://blog.csdn.net/seven08290/article/details/103823364

版权

pytorch 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

遇到的情况：在本地pytorch1.3.1运行无误。但是在服务器上，环境是pytorch1.2.0 则出现：loss变为NAN值，

尝试过的方法：

1）改变batchsize无作用。 2）调小学习率没作用。 3）数据做了归一化也没有作用 4）冻结了一些卷积层，也毫无作用

但是加了一句话：

    preds = preds.log_softmax(2).detach().requires_grad_()

这个问题就解决了！！验证了一下是后半句detach().requires_grad()的核心问题。看有解释说切断了反向传播。但具体理念我不太懂。我用的ctcloss，不知道和函数有没有关系。

--------更新于2020.1.7--------------

后来发现加上detach()后，loss虽然不是nan，但是并没有下降的趋势。于是把detach去掉了。

排查各种原因后发现是因为在服务器上用了CUDA加速，CTCLoss的四个输入都必须在cuda上，如果报错则将数据类型变为torch.long就可以了。

text = text.to(torch.long).cuda()
length = length.to(torch.long).cuda()
preds = net(image)
preds = preds.log_softmax(2)
preds_size = torch.LongTensor([preds.size(0)] * batch_size).cuda()
cost = criterion(preds, text, preds_size, length) / batch_size

依旧seven

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
pytorch中loss为nan值

遇到的情况：在本地pytorch1.3.1运行无误。但是在服务器上，环境是pytorch1.2.0 则出现：loss变为NAN值，尝试过的方法：1）改变batchsize无作用。 2）调小学习率没作用。 3）数据做了归一化也没有作用 4）冻结了一些卷积层，也毫无作用但是加了一句话： preds = preds.log_softmax(2).detach().requires...
复制链接

扫一扫