pytorch训练过程中出现nan的排查思路

最新推荐文章于 2025-03-04 16:09:16 发布

风吹草地现牛羊的马

最新推荐文章于 2025-03-04 16:09:16 发布

阅读量2.6w

点赞数 44

分类专栏：优化算法 pytorch 机器学习

本文链接：https://blog.csdn.net/mch2869253130/article/details/111034068

版权

本文提供了一套系统的方法来诊断和解决深度学习模型训练过程中出现的NaN值问题，包括检查模型前向传播、梯度裁剪及调整学习率等步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最常见的就是出现了除0或者log0这种，看看代码中在这种操作的时候有没有加一个很小的数，但是这个数数量级要和运算的数的数量级要差很多。一般是1e-8。
在optim.step()之前裁剪梯度。

optim.zero_grad()
loss.backward()
nn.utils.clip_grad_norm(model.parameters, max_norm, norm_type=2)
optim.step()

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

风吹草地现牛羊的马

关注关注

44
点赞
踩
93

收藏

觉得还不错? 一键收藏
24
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

pytorch nan解决方法笔记

jacke121的专栏

10-03

5565

pytorch nan解决方法笔记

pytorch判断NaN

jacke121的专栏

03-31

9515

pytorch判断NaN You can always leverage the fact thatnan != nan: data = torch.tensor([1, 2, np.nan]) tensor([ 1., 2., nan.]) data[data != data] tensor([ 0, 0, 1], dtype=torch.uint8) Wi...

24 条评论您还未登录，请先登录后发表或查看评论

Pytorch训练模型损失Loss为Nan或者无穷大（INF）原因

最新发布

qq_60644406的博客

03-04

138

记录自己犯病

pytorch训练出现nan是什么意思

夏目里奇的博客

01-05

1万+

1.背景训练时忽然发现某几项loss变成了nan。 2.nan的含义 nan值在python往往可以直接与无穷大，无穷小等价。常见根本来源： a/0 log(0) 空索引第一个常见例子: loss/posnumloss / posnumloss/posnum，希望根据正例个数平分loss，却忽视pos_num可能为0，也就是图片中没有正例，常见解决loss/(0.0001+num)loss/(0.0001 + num)loss/(0.0001+num)或者if判断；第二个常见例子：l

【机器学习技巧】-训练过程中，loss参数出现NAN怎么解决？解决方案汇总？

小坏蛋的博客

03-26

1万+

深度神经网络在训练过程中，loss参数出现NAN怎么解决？解决方案？

Pytorch训练时报nan

体会编程语言独到的美

11-07

882

介绍Pytorch训练时nan产生后的排查和规避方法。

SSD-Pytorch模型训练自己的数据集

科研鬼才的博客

04-22

7914

开始之前声明: 博主用的环境是ubuntu18.04+anaconda3+pytorch1.4+pycharm 1.下载SSD-Pytorch代码 SSD-pytorch代码链接： https://github.com/amdegroot/ssd.pytorch git clone https://github.com/amdegroot/ssd.pytorch 运行该代码下载到本地（如果下...

训练神经网络时train loss或是validation loss出现nan

qq_41663215的博客

08-28

5623

最近使用带有SE block的网络在pytorch框架下做训练。training loss 随着epoch增多不断下降，但是突然到某一个epoch出现loss为nan的情况，但是两三个epoch之后，loss竟然又恢复正常，而且下降了。这几篇博客是我debug的借鉴，真的非常有用。这篇介绍了出现nan的基本解决思路。 https://blog.csdn.net/qq_32799915/article/details/80612342 这篇介绍了为什么在多层dense layer之后某一层dense la

pytorch 任何程序的loss都是nan

06-06

在排查了以上可能的原因后，如果问题仍然存在，可以尝试使用数值稳定的计算技巧，例如梯度裁剪、批量标准化等，来避免数值计算中出现非法值或NaN。同时也可以使用PyTorch提供的调试工具，例如torch.autograd.set_...

模型训练中出现loss为NaN怎么办？

Thomas_Cai的记忆殿堂

07-18

4941

模型训练中出现loss为NaN原因

Pytorch定位NaN

danmeng8068的博客

09-02

6351

https://blog.csdn.net/mch2869253130/article/details/111034068 https://www.zzsblog.top/coding/2021/08/07/pytorch%E5%AE%9A%E4%BD%8DNaN.html 按照下面的流程来判断。 ... loss = model(input) # 1. 先看loss是不是nan,如果loss是nan,那么说明可能是在forward的过程中出现了第一条列举的除0或者log0的操作 assert tor

pytorch排查loss值出现nan的情况

qq1803291168

11-03

1663

pytorch 排查 loss值为 nan 的情况

Deep Learning 之训练过程中出现NaN问题

BVL的博客

07-25

1万+

相信很多人都遇到过训练一个deep model的过程中，loss突然变成了NaN。在这里对这个问题做一个总结。一般来说，出现NaN有以下几种情况： 1.如果在迭代的100轮以内，出现NaN，一般情况下的原因是因为你的学习率过高，需要降低学习率。可以不断降低学习率直至不出现NaN为止，一般来说低于现有学习率1-10倍即可。 2.如果当前的网络是类似于RNN的循环神经网络的话，出现NaN

深度学习网络训练，Loss出现Nan的解决办法

不要给自己设限，尝试更多可能（思所向皆可往）

04-23

5190

模型的训练不是单纯的调参，重要的是能针对出现的各种问题提出正确的解决方案。本文就训练网络loss出现Nan的原因做了具体分析，并给出了详细的解决方案，希望对大家训练模型有所帮助。一、原因如果在迭代的100轮数以内，出现NaN，一般情况下的原因是你的学习率过高，需要降低学习率。可以不断降低学习率直至不出现NaN为止，一般来说低于现有学习率1-10倍即可。

pytorch训练一段时间突然出现NaN

m0_37192554的博客

10-21

9545

一、https://www.cnblogs.com/bonelee/p/8603750.html 相信很多人都遇到过训练一个deep model的过程中，loss突然变成了NaN。在这里对这个问题做一个总结。一般来说，出现NaN有以下几种情况： 1.如果在迭代的100轮以内，出现NaN，一般情况下的原因是因为你的学习率过高，需要降低学习率。可以不断降低学习率直至不出现NaN为止，一般来说低于现有学习率1-10倍即可。 2.如果当前的网络是类似于RNN的循环神经网络的话，出现NaN可能是因为梯度爆炸的原