pythorch显卡利用率过低的问题

在docker中pytorch显卡利用率过低的问题

​ 刚刚在用docker利用用pytorch训练模型的时候报了一个错:RuntimeError: DataLoader worker (pid 493) is killed by signal: Bus error. Details are lost due to multiprocessing. Rerunning with num_workers=0 may give better error trace.

​ 一开始是因为在训练的时候发现显卡的利用率太低了,显卡有一半的时间处于空闲状态,这不行啊,这得训练到何年何月去了,猜测应该是CPU预处理数据耗费了太多时间导致的,于是把DataLoader的num_workers参数设置为8,然后就报了上面那个错误,于是google查了一下,这应该是设置了num_works不为0的时候,导致docker和宿主计算机的共享内存不够了,于是就报了这个错,怎么解决呢?在创建docker的时候加上–shm-size=16G这个参数就ok啦。于是显卡利用率基本都能保持在99%这样了,当然会有点波动,训练速度提升了不少。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值