CUDA的分布式训练
torch._C._cuda_setDevice(device)
RuntimeError: cuda runtime error (101) : invalid device ordinal at /opt/conda/conda-bld/pytorch_1595629427478/work/torch/csrc/cuda/Module.cpp:59
解决办法:
在.sh脚本的时候,需要将环境中存在的node数(对于单机多卡来说,就是GPU的数量)设置匹配。也就是说,环境中有多少张卡,node数就应该等于多少。
python -m torch.distributed.launch --nproc_per_node=4 --use_env train.py --batch_size 4
推荐用法是nproc_per_node和local_world_size 设置和CUDA_VISIBLE_DEVICES的数量一致。参考链接: