[ModelArts]训练作业中踩坑记录

转载地址:https://bbs.huaweicloud.com/forum/thread-76026-1-1.html

作者: 芳菲菲兮满堂

本帖主要是在训练营三期教程yolov3训练中的遇到的问题记录,针对modelzoo中的train.py主要修改集中如下几行:

1

2

3

4

5

6

7

8

9

import moxing as mox

local_data_url = '/cache/data'

local_train_url = '/cache/train_url'

device_id = int(os.getenv("DEVICE_ID"))

mox.file.copy_parallel(args_opt.data_url, local_data_url)

local_data_url 设置训练时运行环境中的数据存储路径 

local_train_url是设置训练过程中检查点所存储的路径

device_id指定集中设备的设备,这里一定要加int强制转换,否则训练会出错。

在设置训练作业时 设置的data_url为你自己obs存储路径 为了减少数据建传输耗费的时间,需要使用moxing模块将obs中的数据拷贝到训练作业的本地存储中(具体参考https://support.huaweicloud.com/bestpractice-modelarts/modelarts_10_0017.html) 所以需要调用copy_parallel方法进行数据拷贝,modelarts新用户可能会忽略的地方

最后还有一个sink选项,默认是开启的,我在训练过程中会报错,将sink模式设置false 训练得已继续运行, 具体原因貌似是sink模式有个什么限制,具体我还在研究中,有知道的童鞋可以为我答疑解惑一番 小生在此拜谢

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值