Pytorch报错如下:
Pytorch distributed RuntimeError: Address already in use
原因:
模型多卡训练时端口被占用,换个端口就好了。
解决方案:
在运行命令前加上一个参数 --master_port 如:
--master_port 29501
后面的参数 29501 可以设置成其他任意端口
注意:
这个参数要加载 XXX.py前面 例如:
CUDA_VISIBLE_DEVICES=2,7 python3 -m torch.distributed.run /
--nproc_per_node 2 --master_port 29501 train.py