yoloV8模型训练中断如何续传

zuoyeshuangfeng

已于 2024-11-18 15:28:52 修改

阅读量803

点赞数 12

分类专栏： YOLO 文章标签： YOLO 机器学习深度学习人工智能

于 2024-11-18 15:14:45 首次发布

本文链接：https://blog.csdn.net/weixin_43383073/article/details/143856772

版权

YOLO 专栏收录该内容

1 篇文章

订阅专栏

问题描述：
使用命令行在服务器训练yolov8模型的时候，有时候会遇到time out或者Input/Output error的问题造成还没训练完的模型中断训练，导致需要重头训练模型。

（使用命令行训练模型的解决方法，python请看最后的链接）

解决方法：
在yolo模型的yaml文件中设置每训练多少轮就保存一次模型

找到

save_period:-1

默认值为-1是在训练过程中不保存模型，想多少轮保存一次就修改成多少。这里我修改成每10轮保存一次。

然后先正常使用命令行语句启动模型训练：

yolo cfg=xx.yaml

如果想指定GPU来训练可使用命令行语句：

CUDA_VISIBLE_DEVICES=1 yolo train cfg=XX.yaml

这里'CUDA_VISIBLE_DEVICES=1' 是选择的gpu的序号，选择第几个gpu输入序号几。

如果在训练途中遇到time out或者Input/Output error的问题，比如我设置epoch=150，在epoch=112的时候训练中断，但我前面设置的每10轮保存一次的模型还在，则可以从epoch10继续训练。

cd进入模型所在的文件夹或者直接使用语句：

yolo train resume model=path/to/last.pt

这里可以直接将last.pt改为epoch=110.pt，可以看到模型从上次停止的地方重新开始训练了

使用python脚本修改或者其他命令行语句可参考官网：
https://docs.ultralytics.com/modes/train/#resuming-interrupted-trainings

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zuoyeshuangfeng

关注关注

12
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

YOLOv8断点训练

qq_45232776的博客

06-07

241

YOLOv8断点训练

手把书教你使用YOLOv8训练自己的数据集(附YOLOv8模型结构图)

在职AI算法工程师，擅长计算机视觉，YOLO目标检测、分割等，擅长web、pyqt界面可视化，好内容持续更新中，来这里跟大家一起学习，共同进步

08-07

1万+

YOLOv8 是由Ultralytics团队开发的，2023 年发布。YOLO系列模型以其快速和准确的目标检测能力而闻名，并且YOLOv8继承了前几代YOLO模型的优点，同时进行了多方面的改进和优化，以提高检测性能和效率。YOLOv8 常用于目标检测、分割、关键点检测和分类。

参与评论您还未登录，请先登录后发表或查看评论

Yolov8如何在训练意外中断后接续训练

最新发布

caixinxuan的博客

02-20

396

深度学习训练到半夜却还要定个闹钟爬起来输命令继续训练？不需要。

YOLOv8常见问题解决方案

AsUs.的博客

02-23

2175

通过设置 resume=True，"…Ultralytics YOLO 您可以通过设置 resume 参数 True 在调用 train 方法的路径，并指定 .pt 文件，其中包含经过部分训练的模型权重。恢复训练时，Ultralytics YOLO 会加载上次保存模型的权重，并恢复优化器状态、学习率调度器和历时编号。这样，您就可以从上次中断的地方无缝地继续训练过程。请记住，默认情况下，检查点会在每个纪元结束时保存，或者使用 save_period 参数，因此您必须至少完成一个纪元才能恢复训练运行。

大模型训练中断，断点续传助力快速恢复

weixin_41888295的博客

01-04

1205

通过定期保存模型权重和参数、选择合适的保存周期、使用可靠的存储设备以及加载中间状态继续训练等步骤，可以确保在中断后能够快速、准确地恢复训练，避免之前计算资源的浪费。如果在训练过程中中断，可以加载之前保存的模型参数和权重，然后从上次中断的地方继续训练。无论何种原因，一旦中断，训练过程可能会被打断，导致长时间的等待和之前计算资源的浪费。加载中间状态继续训练：在中断后，可以从保存的中间状态加载模型权重和参数，然后继续训练。需要注意的是，加载的中间状态应该是正确的、完整的，否则可能导致训练结果出错。

Yolov8中断后继续训练，resume方法，断点训练

weixin_61623830的博客

05-21

4723

1.错误尝试在训练YOLOv8的时候，因为开太多其他程序，导致在100多次的时候崩溃，查询网上相关知识如何接着训练，在yolo5中把resume改成True就可以。在yolov8中也这样尝试，将ultralytics/yolo/cfg/default.yaml中的resume改成True发现并没有作用，感觉yolov8代码还是有很多bug。

YOLOV8训练中断之后如何继续上次训练？

weixin_44024748的博客

06-01

4982

该方法尝试成果，但是会。

Yolov8中断后继续训练

前沿技术分享，人工智能、大模型技术分享，日常问题记录

12-05

4105

Yolov8中断后继续训练/断点训练

Ultralytics yolov8 怎么从意外中断的训练中继续训练

qq_43824135的博客

11-30

2875

yolov8 怎么从意外中断的训练中继续训练

yolov8断点续训

shgg2917的博客

08-11

1649

这时候如果下次能继续上次训练的结果继续训练会节省很多时间。

YOLOv8如何进行断点续训？

毕竟是Shy哥

10-30

1962

【代码】YOLOv8如何进行断点续训？

【YOLOv8的使用】YOLOv8的训练/验证/预测/导出模型/ONNX模型的使用

静谧、淡雅

04-09

2728

YOLOv8的使用

干货总结-详细介绍yolov3模型训练的过程及常见问题

Kyle_Chan_zMH的博客

03-15

2431

对准备好的数据进行预处理是很重要的一步。训练完成后，可以将训练好的模型导出为可用于推理的格式，如TensorFlow SavedModel、PyTorch模型文件等。解决方法：根据模型的输入要求，将数据转换为相应的格式，如图片数据转换为张量格式、标签数据转换为独热编码格式等。除了以上提到的框架之外，一些AI开发平台也提供了配置和训练YOLOv3模型的功能，例如Google的AutoML、Microsoft的Azure等。根据模型评估的结果，可以对模型进行参数调优，包括学习率调整、数据增强策略调整等。

yolov5训练模型中断后的优化压缩

book_mastercat的博客

01-06

534

在训练yolov5模型时，会遇到后续的训练已经没有意义，这时候中断训练的话，最优模型往往没有去除各种参数信息，文件比较大，参考了yolov5源代码中的utils/general.py中的strip_optimizer()函数，进行了简单的改写，可以直接用命令行完成优化。

YOLOv8断点恢复、减少训练轮数、提前终止_yolov8未到200轮结束

2401_84009300的博客

04-08

1028

训练的时候，发现epochs设置多了，训练中途发现收敛效果还可以，不用继续跑太多轮，于是想缩减epochs。但没找到解决的帖子…

YOLOv8从断点处继续训练

如烟

03-01

7026

找到上次训练保存的路径位置（我的是：/home/zqq/下载/ultralytics-main/ultralytics/yolo/v8/detect/runs/detect/train10/weights）顺便说个小技巧，ctrl+c是中止任务，ctrl+z是将任务放在后台运行，可以用fg命令重新调回前台。我的电脑是笔记本版本的3060（6G显存），batchsize设了16，epoch设了300。第一次用YOLOv8，发现代码结构跟以前的差别挺大的，看了文档才知道大概用法。

YOLOv8训练中断后恢复继续训练

xieqiuya的博客

11-29

1364

直接执行命令：yolo train resume model=path/to/last.pt。

YOLOv8（Ultralytics）从断点处继续训练（Resume）

qq_45388349的博客

09-26

2830

注意：需要将存储结果的地方没用的train文件夹删除（最好只保留一个），否则将无法自动识别权重。并且如果使用情况1的方法会提示已经训练完。方法：将model替换为训练中途的last.pt文件，并且添加resume=True。方法：将epochs替换为500，并且将已有的权重作为pretrained进行加载。结果：模型将会加载100个epoch时的模型权重，但是会从0epoch开始训练。结果：模型将会从断点处开始训练直到100epoch结束。

yolov8模型训练教程

02-15

### YOLOv8 模型训练教程 #### 使用命令行工具进行单卡训练对于YOLOv8模型的训练，可以利用命令行界面(CLI)来执行相应的操作。具体来说，在启动训练之前需准备好数据集配置文件以及预训练权重等资源。下面是一条用于初始化YOLOv8 nano版本检测器并基于自定义数据集`human_target`开展为期100轮迭代训练过程的例子[^2]： ```bash yolo detect train data=datasets/human_target/data.yaml model=yolov8n.yaml pretrained=ultralytics/yolov8n.pt epochs=100 batch=4 lr0=0.01 resume=True ``` 这条指令指定了多个参数选项： - `data`: 数据集路径； - `model`: 所使用的YOLO架构描述文件(.yaml)，这里选用的是nano规模变体； - `pretrained`: 预训练好的网络权值位置； - `epochs`, `batch`, 和其他超参设置则直接影响到学习率调整策略(`lr0`)等方面。 #### 准备工作与环境搭建为了顺利运行上述命令，确保已安装好Python开发环境，并按照官方文档指示完成必要的依赖库安装。此外，还需注意准备符合特定格式的数据标注文件（如COCO或VOC标准），并将这些信息整理成`.yaml`形式以便程序读取[^1]。 #### 进阶功能说明除了基本的训练流程外，还支持诸如断点续训(`resume=True`)等功能特性，这使得即使中途意外中断也能从中恢复继续优化模型性能而不必重头再来。同时提供了灵活修改初始学习速率(`lr0`)的能力，允许使用者依据实际情况微调这一重要超参数以期获得更好的收敛效果。