bug解决：AssertionError: No inf checks were recorded for this optimizer.

蜡笔新小

已于 2024-12-29 16:46:33 修改

阅读量3.5k

点赞数 3

文章标签： bug

于 2023-08-13 01:25:06 首次发布

本文链接：https://blog.csdn.net/m0_52945258/article/details/132256026

版权

这真的是最恶心的一个error（比网络回传找哪层没有传播到还要恶心！），找了好久的问题所在之处，最后偶然发现了这篇文章：

解决pytorch半精度amp训练nan问题 - 知乎

然后发现自己用的混合精度训练，发现问题解决问题，谨此记录，方便查阅。

睡觉，晚安！

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

蜡笔新小

关注关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
5
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

QLORA:量化LLMA的有效微调

AI浩

06-28

3126

我们提出了QLORA，这是一种有效的微调方法，它减少了内存使用，足以在单个48GB GPU上微调65B参数模型，同时保留完整的16位微调任务性能。QLORA通过冻结的4位量化预训练语言模型将梯度反向传播到Low RankAdapters (LoRA)中。我们最好的模型家族，我们命名为Guanaco，在Vicuna基准上优于之前所有公开发布的模型，达到ChatGPT性能水平的99.3%，而只需要在单个GPU上进行24小时的微调。

AssertionError: No inf checks were recorded for this optimizer(已解决)

qq_50079897的博客

12-15

1338

要解决这个问题，您需要确保模型的所有部分（包括主模型和任何适配器如 LoRA 层）使用一致的数据类型。LoRA 层可能会单独管理其参数的数据类型。确保在应用 LoRA 时，它们与主模型的参数类型一致。在加载模型后，打印所有参数的数据类型，确保它们都是。的实现方式，您可能需要手动覆盖或检查。参数，可以通过以下方式将模型转换为。这个错误表示模型中的某些层期望接收。）类型的张量，但实际接收到的是。，以确保训练过程中不启用半精度。，则会导致类型不匹配。，则需要将整个模型转换为。在解析参数后，强制将。

5 条评论您还未登录，请先登录后发表或查看评论

“No inf checks were recorded for this optimizer.“ AssertionError:错误解决

小姑仔的博客

03-19

6171

"No inf checks were recorded for this optimizer." 错误解决

assert len(optimizer_state[“found_inf_per_device“]) ＞ 0, “No inf checks were recorded for this opti

qq_53017076的博客

03-13

312

1是batch[image]没有放到cuda上，添加一个batch["image"]=batch["image"].cuda，把batch[image]放到gpu上（我这里单卡）di = net(batch["image"].cuda()！是在这一步遇到的：di = net(batch["image"].to(device))2是优化的数据和优化器不在同一张显卡上。不会改的同学建议去云端租一张大显卡跑！这两个问题我调试了1天半：结果发现！都是cuda的问题，

解决AssertionError: No inf checks were recorded for this optimizer

weixin_44904435的博客

10-17

2439

我把代码里的embedding数据类型都输出一遍，全都改了，发现还是报错，才发现如果设置了trainer的这个yaml文件，也得改。在torch.cuda.amp.grad_scaler.py里面有这段注释。大概意思即float16会溢出，全部换成float32即可。将float16转换为float32，可通过to()函数。

Pytorch——报错解决：No inf checks were recorded for this optimizer.

Irving.Gao的博客

11-18

6276

报错解决：No inf checks were recorded for this optimizer.

No inf checks were recorded for this optimizer

记录/交流，加油啊呀...

12-20

871

直接pip install torch，导致cuda版本与pytorch版本不匹配，去官网下载对应cuda版本的pytorch解决问题。

No inf check was recorded for this optimizer. 使用BLIP-2（LAVIS）库的NaN问题

MadChiang的博客

11-06

548

这里最关键的是model.extract_features()这个函数，题主是使用该函数提取特征用于多模态检索的代理任务，提取到的特征经过一定的处理后输入损失函数，用于计算损失，在损失计算，自动求道，梯度回传之后，在scaler.step(optimizer)这一步出错。在使用BLIP-2预训练模型用来提取特征时，遇到的一些问题，没有梯度的问题，参照BLIP-2 feature extraction的示例文件。

使用PeftModel加载LoRA训练模型报错 AssertionError: No inf checks were recorded for this optimizer.

kappam的博客

10-08

442

解决报错 AssertionError: No inf checks were recorded for this optimizer

RuntimeError: Input type (torch.cuda.HalfTensor) and weight type (torch.FloatTensor) sh

qq_53017076的博客

03-13

548

是在这一步遇到的：di = net(batch["image"].to(device))这两个问题我调试了1天半：结果发现！都是cuda的问题，# 确保所有输入都在指定设备上。

Pytorch编程错误与解决方案

hongseqijian2009的博客

05-30

1592

Pytorch编程错误

记录Pytorch中遇到的问题

anshiquanshu的专栏

09-18

4792

突然发现之前遇到的问题是容易反复遇到的，那就随手做一个整理吧~ 1. 在feature层到classifier层中，若出现如下错误：则需要改变FC层的入口参数，如此图中可以改为： x = x.view(out.size(0), -1) self.linear = nn.Linear(320, 10) # 320为入口参数 2. 训练中training accuracy有变化，但test accuracy始终为10%(图片分类)：可能是由于learning rate太大导致的，如lr=0.

optimizer注意点

菜鸟起飞

12-02

3066

转载：https://blog.csdn.net/gdymind/article/details/82708920 重点是这句：注意，如果想要使用.cuda()方法来将model移到GPU中，一定要确保这一步在构造Optimizer之前。因为调用.cuda()之后，model里面的参数已经不是之前的参数了。以下是原文与优化函数相关的部分在torch.optim模块中，其中包含了大部分现在已有的流行的优化方法。如何使用Optimizer 要想使用optimizer，需要创建一个opt.

kaggle中的minist训练模型时遇到的“AssertionError: AbstractConv2d Theano optimization failed: ”

qq_42781616的博客

12-27

2601

如果你不想看话废，解决办法展示的相当简单粗暴，一眼尽现，自己看吧！在minist比赛中有一个非常好的内核 https://www.kaggle.com/yassineghouzam/introduction-to-cnn-keras-0-997-top-6 还有中文译版： https://blog.csdn.net/liutianheng654/article/details/81123...

HiveSQL报错AssertionError

gaofeng的博客

05-31

3418

sql执行报错 Error running query: java.lang.AssertionError: Internal error: While invoking method 'public org.apache.calcite.sql2rel.RelFieldTrimmer$TrimResult org.apache.hadoop.hive.ql.optimizer.calcite.rules.HiveRelFieldTrimmer.trimFields(org.apache.calcite.r

SQL Server 2016中的查询优化器更改说明

culuo4781的博客

07-24

842

描述 (Description) SQL Server 2016 includes a variety of query optimizer enhancements. Some of these have existed since the first previews while others were added later. This is an opportunity to...

assertionerror解决 python_【已解决】virtualenv报错AssertionError | 勤奋的小青蛙

weixin_39820244的博客

12-20

3615

virtualenv新建环境时报错：AssertionError: Filename D:\Python34\Lib\os.py does not start with any of these prefixes: ['D:\\python34', 'D:\\python34']E:\flasky>virtualenv venvUsing base prefix 'd:\\python34'...

Android Lint Checks

weixin_34138255的博客

12-24

1826

Android Lint Checks Here are the current list of checks that lint performs as of Android Studio 2.3 dev: Correctness =========== AdapterViewChildren ------------------- ...

A卡怎么解决：AssertionError: Torch not compiled with CUDA enabled