pythorch显卡利用率过低的问题

最新推荐文章于 2024-02-02 10:26:57 发布

ogzhen

最新推荐文章于 2024-02-02 10:26:57 发布

阅读量737

点赞数

分类专栏：人工智能

本文链接：https://blog.csdn.net/ogzhen/article/details/103977490

版权

人工智能专栏收录该内容

3 篇文章 0 订阅

订阅专栏

在docker中pytorch显卡利用率过低的问题

刚刚在用docker利用用pytorch训练模型的时候报了一个错：RuntimeError: DataLoader worker (pid 493) is killed by signal: Bus error. Details are lost due to multiprocessing. Rerunning with num_workers=0 may give better error trace.

一开始是因为在训练的时候发现显卡的利用率太低了，显卡有一半的时间处于空闲状态，这不行啊，这得训练到何年何月去了，猜测应该是CPU预处理数据耗费了太多时间导致的，于是把DataLoader的num_workers参数设置为8，然后就报了上面那个错误，于是google查了一下，这应该是设置了num_works不为0的时候，导致docker和宿主计算机的共享内存不够了，于是就报了这个错，怎么解决呢？在创建docker的时候加上–shm-size=16G这个参数就ok啦。于是显卡利用率基本都能保持在99%这样了，当然会有点波动，训练速度提升了不少。