torch.distributed

torch.distributed包提供Pytorch支持和通信基元，对多进程并行，在一个或多个机器上运行的若干个计算阶段。类torch.nn.parallel.DistributedDataParallel() 基于此功能来提供同步式分布式训练，作为任何Pytorch模块的包裹器。这和Multiprocessing package - torch.multiprocessing 和torch.nn.DataParallel()提供的并行式不同，它支持多网络连接的机器，对每个进程使用者必须明确的启动一个主训练脚本的一个分开的副本。

在单个机器同步的情况下，torch.distributed或者torch.nn.parallel.DistributedDataParallel()包裹器，相对于其他数据并行的方法包括torch.nn.DataParallel()依然有很大的优势：

在每次迭代时每个进程保持自己的优化器并且执行一个完全的优化步骤。同时这也许会出现冗余，因为梯度已经聚合在一起，并且平均到进程上，因此对每个进程都是一样的，这意味着不需要无参数广播步骤，减少了张量和节点之间的时间花费。
每个进程进程包含一个独立的Pytorch解释器，消除额外的解释器超出。来自执行若干执行线程的GIL-thrashing，模型复制或来自单个Python进程的GPUs。这对模型特别重要使得Python的运行时间能够大量使用，包括使用循环成的模型或者许多小的组件。

初始化

在调用任何方法之前，这个包需要使用torch.distributed.init_process_group()来进行初始化。这将阻塞，直到所有进程都已加入。

`torch.distributed.is_available`()[source]

如果分布式包可以获得的话就返回True。否则，torch.distributed对任何API都是不可见的。目前，torch.distributed在Linux和MacOS上都可以得到。设置USE_DISTRIBUTED=1来启动它，当从源中构建PyTorch时。目前，对Linux系统，默认值是USE_DISTRIBUTED=1，对MacOS系统，默认值是USE_DISTRIBUTED=0。

**`torch.distributed.init_process_group`(backend, init_method=None, timeout=datetime.timedelta(0, 1800), world_size=-1, rank=-1, store=None, group_name='')[source]**

初始化默认的分布式进程组，并且也会初始化分布式包。

There are 2 main ways to initialize a process group:

有两种主要的方式来进行初始化过程：

明确的指定store，rank和world_size
指定init_method (一个URL字符串)，这指明在哪里和如何发现同类。选择性的指定rank和world_size，或者编码所有在URL中需要的参数，并且忽略它们。

如果两者都没有指定，init_method假定为"env://"。

参数：

backend(str或Backend)：--要使用的backend。依赖于构筑时间配置，mpi, gloo, nccl作为有效值。这个参数以小写字符串表示(例如，“gloo”)，这也能通过Backend属性(例如，Backend.GLOO)来访问。如果利用nccl在每个机器上使用多进程，每个进程必须独占访问它使用的每个GPU，因为在进程间共享GPU将会导致停滞。
init_method(str，可选)--URL指定如何初始化进程组。默认是“env://”，如果init_method和store都没有指定的时候。和store是互斥的。
world_size (python:int, optional) – Number of processes participating in the job. Required if store is specified.
world_size(int，可选的)--在工作中参与的进程数，如果store指定时需要设置。
rank (python:int, optional) – Rank of the current process. Required if store is specified.
rank(int, 可选的)--当前进程的等级。如果store指定时就需要设置。
store(store，可选的)--所有工作可访问的键/值存储，用于交换连接/地址信息。与init_method互斥。
timeout(timedelta,可选的)--对流程组执行的操作的超时。默认值为30分钟。这适用于gloo后端。对于nccl，只有在环境变量NCCL_BLOCKING_WAIT被设置为1时才适用。
group_name(str，可选的，丢弃)--组名字。

为了使得backend == Backend.MPI，PyTorch需要在支持MPI的系统上从源代码构建。这对NCCL同样适用。

class `torch.distributed.Backend`

一个可获得后端的类似枚举的类：GLOO，NCLL和MPI。

这个类的值是小写字母，例如"gloo"。它们可以作为属性来访问，例如Backend,NCCL。

这个类能直接调用来解析字符串，例如Backend(backend_str)，如果back_ste是空时将会检查。如果是这样的话，返回解析后的小写字母字符串。它也接受大写字符串，例如Backend("GLOO")，返回"gloo"。

注意

入口端。UNDEFINED存在，但仅用作某些字段的初始值。用户不应该直接使用它，也不应该假设它的存在。

**`torch.distributed.get_backend`(group=<object object>)[source]**

返回给定进程组的后端。

参数：

group (ProcessGroup, optional) – 要处理的过程组。默认是通用的主进程组。如果其他指定的组指定后，调用的过程必须是group的一部分。

返回值：

给定进程组的后端，作为一个小写字母的字符串。

**`torch.distributed.get_rank`(group=<object object>)[source]**

返回当前进程组的等级。在一个分布式进程组内，rank是一个独特的识别器分配到每个进程。它们通常是从0到world_size的连续的整数。

参数：

group (ProcessGroup, optional) – 要处理的过程组。

返回值：

如果不是组的一部分，等级就是进程组-1。

**`torch.distributed.get_world_size`(group=<object object>)[source]**

返回当前进程组的进程数。

参数：

group (ProcessGroup, optional) – 要处理的过程组。

返回值：

如果不是组的一部分，进程组的world_size就为-1。

`torch.distributed.is_initialized`()[source]

检查默认的进程数是否已经被初始化

`torch.distributed.is_mpi_available`()[source]

检查MPI后端是否可以得到

`torch.distributed.is_nccl_available`()[source]

检查NCCL后端是否可以得到。

目前支持三种初始化方式：

TCP初始化

使用TCP时有两种初始化方法，两者都需要一个所有进程都可以访问的网络地址和一个想要的world_size。第一种方法需要指定一个属于rank 0集成的地址。这个初始化方法需要对所有进程手动指定等级。注意多路广播地址在最近的分布式包中已经不再支持。group_name也已经丢弃了。

import torch.distributed as dist

# Use address of one of the machines
dist.init_process_group(backend, init_method='tcp://10.1.1.20:23456',
                        rank=args.rank, world_size=4)

共享文件系统初始化

其他初始化方法使用一个文件系统，这个文件系统是共享的，并且在一个组内所有的机器都是能看见的，伴随着需要的world_size。URL应该以file://开始，并且包含共享文件系统中不存在文件的路径(在一个存在的目录中)。如果它不存在的话，文件系统初始化会自动创建一个文件，但是将会杉树文件。因此，你必须确定这个文件是否已在下一次init_process_group()调用相同文件路径名之前已经删除。注意多路广播地址在最近的分布式包中已经不再支持。group_name也已经丢弃了。

警告

这个方法假定文件系统支持用fant1锁定 - 大多数局部系统和NFS支持它。

警告

这个方法通常创建一个文件并且尽力去删除还在程序结束时移除这个文件。换句话说，用文件初始化方法初始的每个初始化将会需要一个需要一个全新的空文件，以便初始化成功。如果通过以前初始化后的文件再一次使用(没有清楚干净时将会发生)，这是不希望发生的行为，并且进程会导致僵局和失败。因此，如果自动删除没有发生的话，尽管这个方法将会尽力清除这个文件，你必须保证文件在训练结束时被移除，来阻止相同的文件在下一次中再次使用。如果你计划在同样的文件系统中调用init_process_group()时，这非常重要。换句话说，如果文件没有移除和清楚，