- group:进程组。默认情况下,只有一个组,一个
job
即为一个组,也即一个world
,当我们使用多进程的时候,一个group
就有了多个world
。当需要进行更加精细的通信时,可以通过new_group
接口,使用 word 的子集,创建新组,用于集体通信等。 - world:全局进程个数。
- rank:表示进程序号,用于进程间通信,可以用于表示进程的优先级。我们一般设置
rank=0
的主机为 master 节点。 - local_rank:进程内 GPU 编号,非显式参数,由
torch.distributed.launch
内部指定。比方说,rank=3
,local_rank=0
表示第 3 个进程内的第 1 块 GPU。
pytorch中world,rank理解
最新推荐文章于 2024-02-29 00:24:57 发布