关于yolov5训练时很多nan的问题

虎年喵飞飞

已于 2022-02-08 20:51:49 修改

阅读量4.8k

点赞数 9

文章标签： pytorch 深度学习人工智能

于 2022-02-08 20:49:34 首次发布

本文链接：https://blog.csdn.net/miracle_world/article/details/122831028

版权

博主在使用CUDA 11.0和torch 1.7.1训练YoloV5时遇到box预测值为nan，精度P和召回率R始终为0的问题。尝试降低学习率未见效，后发现可能与torch版本不兼容有关。改用CUDA 10.2和torch 1.10.2后问题得到解决。附上了torch重装代码。

摘要由CSDN通过智能技术生成

开始时候cuda=11.0，GTX1650，安装torch=1.7.1。自制扑克牌训练yolov5时候发现box啥的都是nan，P和R永远=0.
网上说是学习率调小一些，我试了无效。
后来google说是torch版本不好。我把cuda换成10.2，torch=1.10.2，终于能跑了，泪目。
附上pytorch重装代码：

pip3 install torch==1.10.2+cu102 torchvision==0.11.3+cu102 torchaudio===0.10.2+cu102 -f https://download.pytorch.org/whl/cu102/torch_stable.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

虎年喵飞飞

关注关注

9
点赞
踩
36

收藏

觉得还不错? 一键收藏
15
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

YOLOv5s GTX 1660 Ti训练时出现，box，obj，cla全是nan的问题P、R、mAP都是0，Pytorch和cuda、cudnn版本不对

idl1ng的博客

05-04

1226

cudnn版本：8.2.2（或者8.2.4）训练显示box、obj、cls都是nan。pytorch版本：1.9.0。Pytorch版本：1.9.0。Pytorch版本：1.9.0。cudnn版本：8.0.5。cudnn版本：8.2.2。cuda版本：11.1。cuda版本：11.4。cuda版本：10.2。

ubuntu16.04,yolo_v3训练过程出现全是-nan错误

hlblbxx的博客

02-28

1909

最近忙于搞毕设，解决到什么比较恶心的问题或者网上不好搜的问题就写篇文章记录下，希望能帮到后来人。一、问题训练过程中，出现了所有参数全为-nan的情况。我下的是FLIR的数据集，用的里面thermal_8_bit的图，即jpeg格式图片（此为伏笔）。一开始以为是标注文件的问题，因为我在labels文件夹中存放.txt标注文件时，一训练结果提示在labels文件夹中未见测到xxxxx.jpeg文件，训练失败。将所有图片复制一份进labels文件夹后就没再报错，于是理所当然以为yolo没有检测到.txt文件

15 条评论您还未登录，请先登录后发表或查看评论

[深度学习][原创]yolov5在GTX1660Ti上训练nan解决方法

FL1623863129的博客

01-31

4167

训练时候box ,obj，cls一直是nan安装任何版本pytorch无效，更换yolov5-6.0最新版本无效 Epoch gpu_mem box obj cls labels img_size 0/273 5.64G nan nan nan 113 640 解决方法：安装torch==19.1+cu102和torchvision==0.10.1+cu102即可解决问题...

yolov5训练时，参数出现NAN的解决方法

qq_52692506的博客

03-09

2293

yolov5训练时，参数出现NAN的解决方法

GTX 16XX系显卡 yolov5训练结果出现NAN的问题

不含硫的博客

12-23

8100

autoanchor: Analyzing anchors... anchors/target = 4.27, Best Possible Recall (BPR) = 0.9935 Image sizes 640 train, 640 val Using 1 dataloader workers Logging results to runs\train\test42 Starting training for 3 epochs... Epoch gpu_mem box

yolov5训练自己的数据集出现 nan

weixin_49148527的博客

01-21

1240

原因我把训练代码的batch-size改成64了；解决 batch-size换成8，解决了

解决YOLOV5出现全为nan和0的问题

u014093296的博客

01-22

1225

解决YOLOV5出现全为nan和0的问题

yolov3出现nun情况解决过程笔记

dantamiao的博客

10-12

1188

情况说明相同的数据集用yolov3tiny跑了一遍，结果还好，想换成yolov3看看效果会不会有提升。（均匀GPU加速） Using cuda _CudaDeviceProperties(name='GeForce RTX 2060', major=7, minor=5, total_memory=6144MB, multi_processor_count=30) yolov3tiny的各参数如下 train.py epochs=10, batch_size=16, accumulat...

教你利用yolov5训练自己的目标检测模型

weixin_45989782的博客

07-17

1432

数据准备：解释如何准备训练和测试所需的数据集。包括数据集的收集、标注、划分以及数据预处理的步骤。模型训练：讲解如何使用YOLOv5进行模型训练。包括设置训练参数、选择适当的模型配置、加载数据集和训练模型等步骤。模型评估：介绍如何评估训练好的YOLOv5模型的性能。包括计算预测结果的精度、召回率和平均精确度等指标。模型推理：指导如何使用训练好的YOLOv5模型进行目标检测推理。提供示例代码和指南，展示如何将模型应用于图像或视频数据

Pytorch训练过程出现nan的解决方式

12-23

今天使用shuffleNetV2+，使用自己的数据集，遇到了loss是nan的情况，而且top1精确率出现断崖式上升，这显示是不正常的。在网上查了下解决方案。我的问题是出在学习率上了。我自己做的样本数据集比较小，就三类，...

干货总结-详细介绍yolov3模型训练的过程及常见问题

热门推荐

pts_mjt的博客

11-26

1万+

https://blog.csdn.net/qq_25680531/article/details/79919813 出现nan的问题,一般就是自己数据的问题. olo_layer.c中的count就为0，分母为0，所以就出现了都是nan的情况啦！最后我发现是因为我的标签txt文件里面有逗号... .txt不可以用逗号,要用空格将数据隔开! ...

解决yolov5 使用GTX 1660 Ti训练时出现NAN的问题

sadgbv的博客

11-17

1204

yolov5训练时， box obj cls 为 nan，P R mAP@.5 mAP@.5:.95为 0 的问题。PyTorch版本与CUDA版本不匹配，导致（float16）数据类型在卷积等一些运算的时候会出现nan值。效果：训练时间从03: 40增加到06: 11，但显存增加了很多，考虑到显存可能不够的原因，决定换解决办法。修改train.py，不使用自动混合精度（amp），以及半精度浮点型数据改为单精度的浮点型运算。效果：训练时间比方法一略久一点，但显存是方法一的一半。

YOLO系列训练时出现loss出现nan值或者测试时P\R\map全部为0值的解决办法（GTX16xx系列显卡大坑）

qq_46393403的博客

01-23

3838

YOLO系列训练时出现loss出现nan值或者测试时P\R\map全部为0值的解决办法（GTX16xx系列显卡大坑）

yolov5训练时box obj 为nan

06-28

### 回答1：这个问题的含义是关于yolov5训练时出现的一个box obj中的banana的情况。因此，我回答如下： yolov5是一种目标检测算法，训练时会根据给定数据集生成一些box obj来辅助训练。而题目中提到的banana表示这个box obj中有一个香蕉物体，也就是训练数据集中标注的一个香蕉物体被框选了出来。这个信息对于算法的训练和优化都有帮助。 ### 回答2： yolov5是目标检测领域常用的深度学习算法，该算法的训练过程中包含了许多要素，如图像预处理、网络模型结构、超参数等。当训练过程中遇到box obj为nan的情况时，一般可以从以下几个方面入手解决： 1. 数据集问题：训练集中可能存在不完整或者不合理的数据，比如标注框的位置过于紧密、交叉或者超出图像边界等，导致训练时的计算出现异常，可以通过检查数据集是否规范以及重新标注数据来解决。 2. 网络模型问题：网络模型结构需要根据任务需求和数据量进行选择，深度学习算法中的梯度计算会受到计算机精度的影响，如果模型太复杂可能会使得计算结果过于正负波动导致数值溢出，可以通过减少网络深度和宽度或者使用其他结构的网络模型来解决。 3. 超参数调整问题：超参数是指训练过程中需要手动设置的参数，如学习率、批次大小等，这些参数决定了训练进程的速度和稳定性，当出现box obj为nan的情况时，可以调整超参数以解决。 4. 缺失数据问题：训练数据中可能存在缺失数据，无法完成某些计算，导致出现nan的情况，可通过对缺失数据进行填充、采样或者删除来解决。总之，解决box obj为nan的问题需结合实际情况进行排查和调整，进行多次训练才能找到较为合适的方法和参数设置。 ### 回答3： YoLOv5 是一种经典的目标检测算法，它在实现简单、速度快、准确率高等方面都有很大的优势。然而，在使用 YoLOv5 进行训练时，我们有时会遇到一些问题，例如“box obj 为 NaN”的情况。首先，需要明确的是，“box obj 为 NaN”是由于计算过程中出现了非数值（NaN）的情况。这通常是由于输入数据的问题导致的，例如训练数据中存在标注错误或者数据格式不规范等。解决这个问题的方法有很多，下面我们介绍几个常见的方法。 1.检查数据格式和标注：首先，我们要确保训练数据的格式和标注都是规范的。特别是标注信息需要精确无误，否则会导致训练出现错误。 2.使用数据增强技术：数据增强是提高模型准确率和鲁棒性的常用手段之一。在 YOLOv5 训练中使用数据增强技术，可以有效地增加数据量，提高数据的多样性和代表性，从而减少模型出现 NaN 的情况。 3.调整学习率和损失函数：学习率和损失函数是训练模型时非常关键的两个参数。调整学习率和损失函数可以帮助我们优化训练过程，从而减少出现 NaN 的情况。 4.使用更好的标注工具：有些标注工具能够自动检测标注错误，避免标注错误导致训练出现 NaN 的情况。因此，我们可以考虑使用更好的标注工具。总的来说，解决“box obj 为 NaN”的问题需要我们对训练数据进行仔细的检查和分析，尝试使用一些常见的技巧进行优化。只有在数据和训练设置合理的情况下，才能训练出优秀的 YOLOv5 模型。