PyTorch Distributed Tutorials(1) Overview

最新推荐文章于 2024-04-03 16:26:25 发布

清欢守护者

最新推荐文章于 2024-04-03 16:26:25 发布

阅读量445

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/irving512/article/details/107679649

版权

26 篇文章

订阅专栏

在 v1.6.0 中，torch.distributed 包主要可以分为三个方面。
Distributed Data-Parallel Training(DDP)，参考文档
- 数据并行训练。
- 适用于 single-program multiple-data 训练。
- 基本实现思路：每个进程都有一个模型副本，每个模型副本处理不同的输入数据，DDP主要处理的就是不同模型副本的梯度同步问题。
RPC-Based Distributed Training(RPC)，参考文档
- 适用于DDP不能使用的情况，例如 distributed pipeline parallelism, parameter server paradigm 等。
Collective Communication(c10d)，参考文档
- 提供了 collective communication 和P2P communication 两种通信方式。
- DDP使用了前者，RPC使用了后者。
- 一般情况下，开发人员不会直接使用c10d，但也有直接使用的情况，后续文档会介绍。

目标：更一般的分布式训练场景。
主要就是 torch.distributed.rpc 的使用（参考文档），该包主要分为四个部分。
- RPC：在远程服务器上运行一个函数。
- RRef：管理远程对象的生命周期，相关其他文档
- Distributed Autograd：Autograd的分布式实现，具体可以参考文档
- Distributed Optimizer：优化器的分布式实现。
文档汇总：
- Getting Started with Distributed RPC Framework：以简单的RL为例介绍RPC与RRef。
- Implementing a Parameter Server Using Distributed RPC Framework：借鉴了Hogwild! training的思路，实现了异步参数服务器，用于训练。
- Distributed Pipeline Parallelism Using RPC：扩展了单机多卡的解决方案，展示如何使用RPC。
- Implementing Batch RPC Processing Using Asynchronous Executions：介绍如何实现RPC batch processing