autodl实践经验------3

Jormungand123

已于 2022-04-20 00:06:52 修改

阅读量4.2k

点赞数 2

文章标签：深度学习

于 2022-04-08 22:48:40 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Jormungand123/article/details/124052862

版权

简单记录一下遇到的新问题：

显存跑炸了。

但是我发现两个问题：

1、要为解冻阶段留裕量，我前面只考虑了冻结阶段的batch_size在显存允许的情况下尽可能大，然后一进入解冻阶段，显存就炸了。

所以我换成了batch_size:32、16,num_workers:8。后面看看解冻阶段会不会炸。

2、我发现系统盘内存差点不够，因为我yolov3项目输出位置在系统盘，我不太好改输出位置，所以我直接改了存储周期，我每10个epoch存一个权值文件，应该够。

3、考虑到调整参数对训练速度影响很小，所以考虑减少数据集至5万张，并且下次多模型共同训练，但一定要考虑解冻阶段显存够不够，应该最多同时训练两个模型。

4、用python train.py && shutdown或者干脆不用shutdown，我用了一次python train.py; shutdown，结果出错了连自己报错都看不到。之前用python train.py && shutdown是看到是因为自己显存炸了，就可以调试。宁可多花点钱，也别花冤枉钱。我怀疑是因为我10个epoch保存一次，算训练完一次，它可能就判断我python train.py运行的结束就给关机了。

5、只有跟你的实例一样的区并且一样配置的GPU空闲才能开机。我现在看着有3核、8核的都有空闲但是开不了机，所以还是得把所有东西放系统盘然后保存镜像迁移。

6、不知道为什么，换了个8核的titanxp明显快了很多，以后一定弄个核多的，可以省很多钱！

7、目前我冻结模式用了4094MiB显存，大概30分钟一个epoch，现在解冻模式大概35分钟一个epoch，然后显存用了9576MiB，足足两倍！

8、不知道是不是bug，我在一个终端连续ctrl+z然后重新训练，显存会飙升

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。