autodl实践经验------3

简单记录一下遇到的新问题:

显存跑炸了。

但是我发现两个问题:

1、要为解冻阶段留裕量,我前面只考虑了冻结阶段的batch_size在显存允许的情况下尽可能大,然后一进入解冻阶段,显存就炸了。

所以我换成了batch_size:32、16,num_workers:8。后面看看解冻阶段会不会炸。

2、我发现系统盘内存差点不够,因为我yolov3项目输出位置在系统盘,我不太好改输出位置,所以我直接改了存储周期,我每10个epoch存一个权值文件,应该够。

3、考虑到调整参数对训练速度影响很小,所以考虑减少数据集至5万张,并且下次多模型共同训练,但一定要考虑解冻阶段显存够不够,应该最多同时训练两个模型。

4、用python train.py && shutdown或者干脆不用shutdown,我用了一次python train.py; shutdown,结果出错了连自己报错都看不到。之前用python train.py && shutdown是看到是因为自己显存炸了,就可以调试。宁可多花点钱,也别花冤枉钱。我怀疑是因为我10个epoch保存一次,算训练完一次,它可能就判断我python train.py运行的结束就给关机了。

5、只有跟你的实例一样的区并且一样配置的GPU空闲才能开机。我现在看着有3核、8核的都有空闲但是开不了机,所以还是得把所有东西放系统盘然后保存镜像迁移。

6、不知道为什么,换了个8核的titanxp明显快了很多,以后一定弄个核多的,可以省很多钱!

7、目前我冻结模式用了4094MiB显存,大概30分钟一个epoch,现在解冻模式大概35分钟一个epoch,然后显存用了9576MiB,足足两倍!

8、不知道是不是bug,我在一个终端连续ctrl+z然后重新训练,显存会飙升

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值