现象:
如下图,在8张卡上开8个进程的同时在GPU0上开8个进程,导致GPU0的模型占用远高于其他卡。
下面这个图是正常效果:
第一种解决方法:解决多卡加载预训练模型时,卡0总会比其他卡多占用显存,多卡占用显存不均_多卡训练为什么占的内存多_大圆规家的博客-CSDN博客
第二种解决方法:
build 模型之前加下面这行
torch.cuda.set_device(args.local_rank)
来源:https://github.com/NVIDIA/apex/issues/200#issuecomment-472974604