参考链接
报错原因
在IO读写的时候,临时占用的内存不够,从而需要引入新的临时文件夹
解决方案
分析原因:
- 开启
--cache-images
训练参数:因为最近为了加速训练YOLOv7,所以听取网友建议,打开了训练参数--cache-images
,这个参数的作用就是将训练用到的数据加载到内存中,这样就能加快数据读取速度从而训练得更快 - 过度占用系统盘autodl-nas:训练结果我是保存在内蒙A区的公用网盘
autodl-nas
中的,所以在生成训练权重过程中可能就会占用系统盘什么进程巴拉巴拉的吧,不懂(感觉autodl-nas的作用就像C盘系统盘,如果某一时间段系统盘占满了,程序就会崩溃,显示内存不足。而autodl-tmp就相当于D盘,随便存放多大的数据,都不会影响电脑的数据读取,也就是不会导致程序崩溃)
解决:
因为是训练到中途断掉的,所以我将开启断点训练。针对OSError: [Errno 28] No space left on device
最核心的步骤其实是将训练结果保存在autodl-tmp(不要保存在autodl-nas中了!)
- 拷贝已有的结果到
autodl-tmp
文件夹:Linux命令是cp -r dir1 dir2
例如,我是:
cp -r /root/autodl-nas/NeimengA_runs/train/yolov7-FasterNet-new-from-yolov7-distillation2 /root/autodl-tmp
- 更改
已拷贝到autodl-tmp文件夹中的训练文件夹中opt.yaml
相应内容:更改project
和save_dir
这两个参数,将它们指定到/root/autodl-tmp
打头的某一具体路径中(自己视情况而定去安排是哪个文件夹)
例如,我是:
project: /root/autodl-tmp
save_dir: /root/autodl-tmp/yolov7-FasterNet-new-from-yolov7-distillation2
- 开始断点训练:核心是设置使用resume参数👉
python train.py --resume 指明你想要接着训练的权重位置
例如,我是:
python train.py --cfg cfg/training/yolov7-FasterNet-new.yaml --name yolov7-FasterNet-new-from-yolov7-distillation --resume /root/autodl-tmp/yolov7-FasterNet-new-from-yolov7-distillation2/weights/last.pt
上面命令的前端部分参数,是我最开始就设定好的训练参数,为了保险起见我就是在训练命令的前提下添加的断点设置,即,以下就是我训练时的命令:
python train.py --cfg cfg/training/yolov7-FasterNet-new.yaml --name yolov7-FasterNet-new-from-yolov7-distillation