NCCL_IB_DISABLE=1 NCCL_P2P_DISABLE=1 CUDA_VISIBLE_DEVICES=4,5 torchrun \
--nnodes=1 --nproc_per_node=2 --node_rank=0 \
--master_addr=localhost \
./xxx.py \
这条命令的作用是:
在单机环境下启动一个分布式训练任务。
使用两块 GPU(GPU 4 和 GPU 5),每个 GPU 分别运行一个进程。
禁用了 NCCL 的 InfiniBand 和 P2P 功能(有的4090需要启动此命令)