yolov5 训练自己的数据集后，检测不到目标的解决办法

xxLearn

已于 2024-06-17 10:38:44 修改

阅读量1.2w

点赞数 10

分类专栏： Yolo 文章标签： YOLO python pytorch conda pip yolov5

于 2023-07-17 16:28:40 首次发布

本文链接：https://blog.csdn.net/tyq64/article/details/131767603

版权

Yolo 专栏收录该内容

3 篇文章

订阅专栏

文章描述了在使用Yolov5训练自定义数据集时遇到目标检测失败的问题，表现为曲线图无曲线、验证图片无识别结果和训练损失函数出现NaN。作者通过降低Torch和CUDA版本至1.9.1+cu102解决了问题，但训练过程中仍出现非有限范数警告。文章寻求对警告原因的理解和高版本训练失败的解释。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

yolov5 训练自己的数据集后，检测不到目标的解决办法

1. 现象

yolov5 训练自己的数据集后，检测不到目标，表现有三个：一是在 “yolov5 Source Path\runs\train\exp8” (“yolov5 Source Path” 是 yolov5 源码路径，“exp8” 是训练后保存结果的文件夹，根据实际情况，可能会有所不同，主要是 “exp” 后面的数字不同) 中，“results.png” 中的前面几张曲线图上没有曲线；二是，验证集中的图片，没有识别结果，即名字为 “val_batch*_pred.jpg” (* 是数字序号，根据实际情况，会有所不同) 的图片中，本来应该是显示验证集的识别结果，但是却没有识别出来，所以该有的识别框没有画出来，显示的还是验证集的原图片，同样的，此时，用 detect.py 去识别测试图片，一样识别不了，结果会显示 “no detections”。

该有的曲线却没有

第三个现象是，训练的过程中，每个 Epoch 后，会打印结果，然后我发现，所有的结果中，box_loss 和 obj_loss 下面的值都是 nan，而所有的 P 和 R 下面的值，都是 0（下面的图，我用的是正常训练时得到的图改的，异常训练的情况忘了截图）。我查了一下，说这是因为在训练的过程中，得到了非法的数字，有很多原因，其中一个可能是训练数据和它的标签有问题，至于是不是这个问题，后面说明。

训练异常示例

2. 解决办法

在网上查了一下，不同的方法都试了一下，结果都不行，后来实在没有办法了，在网上看到有人说可以降低 cuda 的版本，于是就试了一下，逐渐降低 torch 和 cuda 的版本，一个一个的低版本试，终于在这个版本的时候，可以正常训练了，conda 下的安装命令是：
" pip install torch1.9.1+cu102 torchvision0.10.1+cu102 -f https://download.pytorch.org/whl/torch_stable.html "
可以在官网：
" https://pytorch.org/get-started/previous-versions/ " 上找到这个安装命令，其实是：
" pip install torch1.9.1+cu102 torchvision0.10.1+cu102 torchaudio==0.9.0 -f https://download.pytorch.org/whl/torch_stable.html " 。
但是我在安装时，报错了，说是要安装的 torchaudio 版本与要安装的 torch 版本冲突了，于是我就不安装 torchaudio 了，因为我用不上。安装好了后，再次训练，可以发现，输出的结果正常了，最后，该有的训练结果曲线也有了，验证集的图片也有了识别结果，然后用 detect.py 测试，测试图片也得到了正确的结果。

正常的训练结果

正常的训练结果曲线

3. 未解决的问题

可以看到，在上面的图中，还有一个警告：
" train.py:330: FutureWarning: Non-finite norm encountered in torch.nn.utils.clip_grad_norm_; continuing anyway. Note that the default behavior will change in a future release to error out if a non-finite total norm is encountered. At that point, setting error_if_nonfinite=false will be required to retain the old behavior.
torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=10.0) # clip gradients " 。
它的意思是说，在计算中，得到了一个非法的数字，且以后的高版本中，这个警告不会打印出来了。前面说了，得到了非法的数字，有很多原因，其中一个可能是训练数据和它的标签有问题，但是，我觉得这可能不是我数据的原因（当然也有可能是），如果是数据的原因，每个 Epoch 应该都会报出这个警告，或者每个 Epoch 都会得到 nan 的结果，但是，在这个可行的版本中，只在前面有两次报出了这个警告，后面一切正常，在高版本中，每次 Epoch 都会得到 nan 结果。

所以，这里报出这个警告以及在高版本 torch 和 cuda 中训练时，每次都得到 nan 结果，如果有人知道其中原因，麻烦请告知，谢谢！