记录下跑深度学习遇到的问题:模型跑的很慢,GPU利用率低

在kaggle上跑,模型仿照CLIP(ResNet50+transfomer),框架用的pytorch,加速器用的GPU P100,半精度训练,batchsize = 300

数据集:100+类别,每类900个样本,每个样本长度2048,int64,csv格式

跑的过程中,一个epoch 20m 左右

        第一个epoch:CPU使用率40%左右,RAM在90%,GPU波动很大一会爆满一会是0

        第二个epoch:CPU使用率80%左右,RAM在90%,GPU波动也很大,但是爆满时间比例

                                变的更大了

        第三个epoch:CPU使用率90%左右,RAM在90%,GPU同二

        后面几个epoch:和第三个epoch一样

现在还在等着模型跑完

考虑到以下几点原因:

        1. 数据读取花费时间过长

        2. 预处理没有放到GPU上

        3. batchsize还是太小

看见有大佬写的,可以减少日志IO操作频率,或者使用pin_memory和num_workers,待会试试

(微调CLIP的时候用的图片集只有几百张,那时候速度也还能接受,这次数据应该是太大了,还是继续优化吧,先把GPU利用率提高起来)

萌新第一次正经跑模型,记录些遇到的问题,如果有大佬能指点一二,不胜感激

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值