研一暑假总结-关于训练和瓶颈分析_valueerror: 数据集过小,无法继续进行训练,请扩充数据集。-CSDN博客

本文链接：https://blog.csdn.net/qq_44186052/article/details/126709541

一、关于数据集的制作

1. 学习使用labelme制作数据集

二、关于yolox模型训练

1. 模型训练需要将自己的数据集标签改动

2. 读取数据集文件的路径需要改动

3. 使用的数据集过小，导致训练不了的原因：

epoch_step      = num_train // batch_size
epoch_step_val  = num_val // batch_size  
if epoch_step == 0 or epoch_step_val == 0:
     raise ValueError("数据集过小，无法继续进行训练，请扩充数据集。")

与batch_size设置的大小有关系，在下文中提到的瓶颈分析问题中，我提到了batch_size的设置问题，但是我在实际训练的时候，batch_size的设置过大，但是我的数据集有的只有500，在训练集和验证集比例为9:1的情况下，会导致验证集数量过小，进而导致epoch_step_val为零的情况，所以在训练时会出现报错的情况。。

发现过程十分简单，我让同门也拿一样的数据集进行训练，它的batch_size设置的十分小，所以训练起来没有问题。

4. 训练数据集的速度问题

4.1 硬件设施问题，跟显卡算力有很大关系

4.2 我使用的是AutoDL 的云服务器，一开始使用的是 RTX2080Ti，跑一个一万多的数据集500个epoch需要将近2天的时间，于是开始找问题，看AutoDL的官方解释文档，一步一步进行问题的查找

发现主要是由于设置的num_work和CPU核的不对应以及batch_size的设置有关系

瓶颈解决过程：

1. 首先使用Linux命令行：nvidia-smi 打开观察GPU的性能使用情况（watch -n x nvidia-smi）每隔x秒查看一次GPU的使用性能

Memery-usage 是显存的利用率；GPU-utili是GPU的使用率