分布式训练的挑战
许多开发者尝试通过修改 train.py
文件中的 GPU 数量来启动分布式训练,但这种方法往往不能实现真正的分布式。问题在于,分布式训练涉及到多个进程或节点之间的通信和协调,仅仅增加GPU数量并不能自动完成这些设置。
分布式训练的设置
正确设置分布式训练涉及多个步骤,关键在于使用适当的工具和命令来启动多进程。PyTorch 提供了 torch.distributed.launch
工具来帮助用户简化这一过程。以下是一个典型的命令行示例,用于启动一个三卡的分布式训练:
CUDA_VISIBLE_DEVICES=0,1,2 python -m torch.distributed.launch --nnodes=1 --node_rank=0 --master_addr="127.0.0.1" --nproc_per_node=3 --master_port=25513 tools/train.py
命令行参数解释
CUDA_VISIBLE_DEVICES=0,1,2
: 这个环境变量指定了哪些GPU将被用于训练。在这个例子中,我们使用了三个GPU。--nnodes=1
: 指定了总节点数,这里我们使用单节点。--node_rank=0
: 这个节点的编号是0,用于标识节点在多节点配置中的位置。--master_addr="127.0.0.1"
: 这是主节点的IP地址,所有节点将用这个地址来通信。--nproc_per_node=3
: 指定每个节点上运行的进程数,这里设置为3,因为我们使用三个GPU。--master_port=25513
: 用于节点间通信的端口。
通过以上方法便可以实现分布式多卡的mmrotate项目的训练,希望对大家有帮助!