在训练模型的时候,发现模型的训练速度忽然很低,查看GPU利用率只有20%左右,CPU的利用率也只有20%左右,反复调整batchsize和workers的时候也是无效,经过多次排查发现:模型没问题,batchsize和workers设置没问题,最终原因是在训练的过程中,用户闲着没事儿干,然后开始备份文件夹,这个文件夹下大概有5万多个文件,然后抢占了cpu进程所致。解决办法就是,训练模型的时候,你那台训练机器最好只打开一个网页查查资料得了,或者网页都别打开了,开多了也影响训练速度,也就是用户训练模型的时候千万别做抢占电脑cpu进程的多余操作,比如拷贝啊,传数据之类的事情。
CPU和GPU利用率均低的情况下训练速度很慢的原因
最新推荐文章于 2024-06-16 13:54:00 发布