很多时候我们明明在脚本里设置了
os.environ['CUDA_VISIBLE_DEVICES']='x, x, x'
可实际运行脚本的时候,发现torch调用的仍然是gpu0:
print(torch.cuda.current_device())
# 0
而且你本来就是因为显卡0已经占用着了,所以想用其它显卡启动训练,可偏偏还总是报GPU0显存不够的错误。
原因基本上有两个:
os.environ['CUDA_VISIBLE_DEVICES']='x, x, x'
这行代码必须在所有调用gpu的代码之前进行设置,特别是import torch必须要在指定gpu之后;最好的方法就是在你的脚本文件开头就写上调用代码。
第二个原因很可能就是你的batch size设置过大,这是很纯粹的原因,改一下batch size值就行了。这里推荐一篇博客,关于GPU的设置问题,我觉得写的很详细:
pytorch之多GPU使用——#CUDA_VISIBLE_DEVICES使用 #torch.nn.DataParallel() #报错解决 | 码农家园