解决训练过程中前一次迭代的loss正常后一次迭代却出现NAN

最新推荐文章于 2023-03-29 15:10:08 发布

重糖爱好者

最新推荐文章于 2023-03-29 15:10:08 发布

阅读量1.2k

点赞数

分类专栏： pytorch学习异常检测文章标签：神经网络 python 人工智能深度学习

本文链接：https://blog.csdn.net/shuaijieer/article/details/120337589

版权

异常检测同时被 2 个专栏收录

7 篇文章 8 订阅

订阅专栏

pytorch学习

6 篇文章 0 订阅

订阅专栏

该怎么办？

最近一直在挣扎这个问题，5月份写的网络就是复现不了了，如今总算解决

首先nan在计算机中的含义是非数，即未定义或不可表示的数。而loss中出现NAN有多种原因：

输入数据和输出数据存在脏数据，可用下面程序检查

if torch.any(torch.isnan(output)):

            break

自己设计的损失函数可能存在问题，检查能否正常反向传播，并对输入的数据保持同一个类型
学习率太大，减小学习率
设置梯度截断

nn.utils.clip_grad_value_(model.parameters(), clip_value=5)

如果使用sqrt(),log(),除0操作要特别注意
直接定位出现NAN的位置

  torch.autograd.set_detect_anomaly(True)
   
  with torch.autograd.detect_anomaly():
       loss.backward()

RuntimeError: Function ‘MulBackward0’ returned nan values in its 0th output.

参考
1.https://oldpan.me/archives/careful-train-loss-nan-inf

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

重糖爱好者

关注关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
解决训练过程中前一次迭代的loss正常后一次迭代却出现NAN

该怎么办？
复制链接

扫一扫

专栏目录

pytorch训练时前一次迭代的loss正常后一次迭代却报nan

Michael’s Blog

05-28

2961

问题描述：训练一个有四个阶段模型的网络（可以简单理解每一阶段就是一个卷积层），每阶段输出都会进行loss计算。现将pytorch原始的ce loss改为focal loss后，网络训练了数个迭代后loss 报nan。输入数据检查过没有问题，报nan时的前一个迭代的loss是正常的。报nan的当前迭代，第一个阶段所有的卷积参数都已经是nan了。一、问题排除因为查看过数据，完全没有问题，排除输入因为参数在报nan时已经是nan了，不是前向问题前一次迭代loss完全没问题，可能不是bp的问题，但是还没有

神经网络训练时，出现NaN loss

热门推荐

u012910595的博客

12-19

1万+

1、梯度爆炸原因：在学习过程中，梯度变得非常大，使得学习的过程偏离了正常的轨迹症状：观察输出日志（runtime log）中每次迭代的loss值，你会发现loss随着迭代有明显的增长，最后因为loss值太大以至于不能用浮点数去表示，所以变成了NaN。可采取的方法：1.降低学习率，比如solver.prototxt中的base_lr，降低一个数量级（至少）。如果在你的模型中有多个loss

参与评论您还未登录，请先登录后发表或查看评论

反向传播时出现NaN

caicai的博客

09-26

1638

症状：前向计算一切正常、梯度反向传播的时候就出现异常，梯度从某一层开始出现Nan值（Nan: Not a number缩写，在numpy中，np.nan != np.nan，是唯一个不等于自身的数）。フォワードの計算に異常なしでも、その模型の変量をアプデートする時に異常な数字が出る。Pythonのプログラムにあるなら、Nanというもの現れることです。根因：原因目前遇到的分为两种，其一——你使用了power(x, a) (a < 1)这样的算子，因为power函数这样的算子，在梯度反向传播阶段时，求

训练时候loss出现nan

lanmy_dl的博客

03-25

334

解决方式，调了lr也不是。最后发现是因为测试是每一个epoch的训练后，所以下一次训练之前要重新train(),也就是要把net.train()写在epoch里面，而不是外面。如果是train完了再test那就无所谓。训练的loss出现nan，第一个epoch是正常的，后面的就开始nan了。

Conv1d参数与输入数据均无nan，结果出现nan的问题解决

weixin_46766932的博客

12-08

1453

解决方法：极有可能是CUDA和pytorch版本适配的问题。博主在复现LaneGCN时，由于我们学校的服务器上的CUDA版本是11.1，与GitHub上官方代码给的pytorch的版本不一致，所以导致了这一令人完全摸不着头脑的问题。不过这也给我积累了一些经验，就是当你认为输入没有问题，模型没有问题（结构和参数没有问题），那就多半是一些不适配的问题（例如，CUDA和pytorch）。由于服务器上的CUDA好像不能更改（似乎是可以的，但是挺麻烦），因此，我使用conda创建一个新的虚拟环境，在其中，使用py

一元n次方程的解(牛顿迭代，暴力破解)代码

08-27

运用牛顿迭代法和暴力破解法，可以轻松解出一元n次方程（5次方以上依然可以求解）的近似解，精确度可调整。压缩包中test.java是暴力破解求解结果10万以内用这个比较快。test2.java是牛顿迭代，结果很大的时候这个...

一种互联网产品迭代中的需求管理模型PDF.pdf

11-17

一种互联网产品迭代中的需求管理模型PDF.pdf

segformer训练白细胞数据集160000次迭代后的模型

05-18

训练过程中的160000次迭代意味着模型在大量样本上进行了充分学习，逐步优化权重，以适应复杂的数据模式和特征。 "iter_160000.pth"是一个检查点文件，它记录了segformer在特定训练步数（即160000次迭代）时的网络...

程序_半次初值迭代法_

10-03

半次初值迭代法是一种改进的迭代方法，适用于解决对称正定矩阵的线性方程组。该方法的基本思想是先通过一次迭代得到一个近似解，然后利用这个近似解作为初值进行第二次迭代，从而提高解的精度。在MATLAB程序...

牛顿迭代法求二元一次方程C++代码及其软件

03-21

在本项目中，我们采用C++编程语言，并结合Qt库来实现对二元一次方程的牛顿迭代法求解，同时通过图形化界面展示迭代过程。以下是关于这个项目的关键知识点： 1. **牛顿迭代法**：牛顿迭代法是基于切线近似的思想，...

移动应用开发过程中的迭代式原型设计

02-25

移动应用原型创建过程中采用迭代式快速开发方法的重要性。可以从对手身上学到什么，如何从他们的失误中获益。如何为你的应用定义USP，如何通过故事板(Storyboarding)、用户场景和故事图(Story-mapping)为自己挑选出...

HIT 软件工程实验二第一次迭代

最新发布

06-09

在HIT（哈尔滨工业大学）的软件工程课程中，实验二是关于第一次迭代的实践环节，这通常涉及软件开发的敏捷方法，尤其是Scrum框架。在这个实验中，学生将体验到从需求收集、项目规划到实际编码和测试的全过程，旨在...

一种简单实用的迭代化开发方法

03-03

火龙果软件工程技术中心本文内容包括：1....正是因为看到迭代化开发的这些优势，越来越多的开发组织正在内部推行核心业务流程的变革，将软件开发这种在开发组织中最核心的业务流程，由以前的瀑布式

C#实现的一元四次方程求解源代码

06-02

在编程领域，尤其是在数值计算和科学计算中，解决数学方程是常见的任务之一。本篇主要探讨的是如何使用C#语言来实现一元四次方程的求解。一元四次方程指的是形如ax^4 + bx^3 + cx^2 + dx + e = 0的方程，其中a、b、c...

手写一个python迭代器过程详解

09-18

主要介绍了手写一个python迭代器过程详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

问题记录 Pytorch Nan Runtime Error ：function‘MulBackward0’returned nan values in its oth output深度学习

meiyongyue的博客

03-29

1019

问题记录 Pytorch Nan Runtime Error ：function‘MulBackward0’returned nan values in its oth output深度学习

【问题记录】PyTorch NaN RuntimeError: Function ‘MulBackward0‘ returned nan values in its 0th output. 深度学习

weixin_45565519的博客

10-17

4345

浅浅记录一下炼丹时的bug。正常训练了十几个epoch，后来突然出现NaN错误，没法训练，记录一下炼丹术

pytorch训练过程中出现NAN问题复盘

weixin_44398263的博客

01-05

4230

pytorch训练过程中出现NAN问题复盘

PyTorch RuntimeError: Function ‘CudnnBatchNormBackward0‘ returned nan values in its 0th output. 解决方法

duxiaodan1995的博客

02-12

4677

1. 查看输入是否含有nan或者全是0 2. 查看最后的loss是否是nan 3. 最难debug的一点是当learning rate过高的时候也会报题目中的错

一个模型补充一次数据后大概需要重新迭代训练多少次

04-04

这要取决于许多因素，例如： 1. 数据量多少：如果只是添加了一些少量数据，则重新训练的次数可能较少。但是，如果添加了大量数据，则需要更多的训练轮次以确保模型可以适应新数据。 2. 模型复杂度：如果模型非常简单，则重新训练的次数可能较少。但是，如果模型非常复杂，则可能需要更多的训练轮次以确保模型可以适应新数据。 3. 训练资源：如果有足够的计算资源和时间，则可以进行更多的迭代来提高模型性能。总之，无法给出具体的数字，但通常需要重新训练的次数会增加，以确保模型可以适应新数据。

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交