记模型训练损失为NAN

最新推荐文章于 2024-05-16 16:52:02 发布

youyiketing

最新推荐文章于 2024-05-16 16:52:02 发布

阅读量882

点赞数 16

分类专栏：深度学习文章标签：深度学习机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43855258/article/details/135390611

版权

深度学习专栏收录该内容

20 篇文章 0 订阅

订阅专栏

前段时间想把我模型的输入由DWT子带改为分块的图像块，一顿魔改后，模型跑着跑着损失就朝着奇怪的方向跑去了：要么突然增大，要么变为NAN。

为什么训练损失会突然变为NAN呢？这个作者将模型训练过程中loss为NAN或INF的原因解释得好好详尽（感谢）：Pytorch训练模型损失Loss为Nan或者无穷大（INF）原因_pytorch loss nan-CSDN博客https://blog.csdn.net/ytusdc/article/details/122321907 我经过输入几番输入打印测试，确认我的输入确实没有问题，那么问题只能出现在模型的前向传播或者反向梯度传播过程中。我跟着这个作者的排查思路，最终定位问题出在梯度反向传播上，于是通过梯度剪裁成功解决NAN问题（我还增大了batch_size的大小，输入修改后，我发现模型运算量减小了，显存支持我每个step跑更大的batch_size了）。pytorch训练过程中出现nan的排查思路_torch判断nan-CSDN博客https://blog.csdn.net/mch2869253130/article/details/111034068修改部分：

        if mode == 'train':
            # # 1.debug loss
            # assert torch.isnan(total_loss).sum() == 0, print(total_loss)
            total_loss.backward()

            # # 2. 如果loss不是nan,那么说明forward过程没问题，可能是梯度爆炸，所以用梯度裁剪试试
            nn.utils.clip_grad_norm(net.parameters(), max_norm=3, norm_type=2)

            optim.step()
            optim.zero_grad()

梯度剪裁：

对超出值域范围的梯度进行约束，避免梯度持续大于1，造成梯度爆炸。（没办法规避梯度消失）

torch.nn.utils.clip_grad_norm_(parameters, max_norm, norm_type)

parameters参数是需要进行梯度裁剪的参数列表。通常是模型的参数列表，即model.parameters()；
max_norm参数可以理解为梯度（默认是L2 范数）范数的最大阈值；
norm_type参数可以理解为指定范数的类型，比如norm_type=1 表示使用L1 范数，norm_type=2 表示使用L2 范数。

【Pytorch】梯度裁剪——torch.nn.utils.clip_grad_norm_的原理及计算过程-CSDN博客https://blog.csdn.net/m0_46412065/article/details/131396098?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522170435889016800215059432%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=170435889016800215059432&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-1-131396098-null-null.142^v99^pc_search_result_base7&utm_term=%E6%A2%AF%E5%BA%A6%E5%89%AA%E8%A3%81&spm=1018.2226.3001.4187

关注

16
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
记模型训练损失为NAN

梯度剪裁结局训练loss为NAN情况
复制链接

扫一扫

专栏目录

youyiketing CSDN认证博客专家 CSDN认证企业博客

码龄5年

56: 原创

30万+: 周排名

3万+: 总排名

7万+: 访问

: 等级

802: 积分

162: 粉丝

242: 获赞

14: 评论

683: 收藏

私信

关注

热门文章

分类专栏

最新评论

Qt配置CMake出错
普通网友: 引领技术潮流，是不可多得的好文，十分值得借鉴和参考。期待博主未来能够持续分享更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Qt配置CMake出错
普通网友: 写的真好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Qt配置CMake出错
普通网友: 写的很详细，感谢博主的分享。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
配置pytorch1.0.1+torchvision0.2.0
G_M_R_（已摆烂）: 0.2.2确实找不到...不过0.2.0是能找到的，想用0.2.0的话直接把下载命令里的torcivision==0.2.2改成0.2.0就能下了，不用单独下载再安装(
MSP432的SPI通信模式
摸鱼带使: 淦，自己写的发送字符串的函数发了字库没有的字符\r\n，卡在里面了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。