PyTorch Distributed Tutorials(1) Overview

0. 前言

  • 官方链接
  • 本文相当于一个目录,总结了分布式相关的tutorials有哪些。
  • 主要就是介绍 torch.distributed 包相关内容。

1. 概述

  • v1.6.0 中,torch.distributed 包主要可以分为三个方面。
  • Distributed Data-Parallel Training(DDP),参考文档
    • 数据并行训练。
    • 适用于 single-program multiple-data 训练。
    • 基本实现思路:每个进程都有一个模型副本,每个模型副本处理不同的输入数据,DDP主要处理的就是不同模型副本的梯度同步问题。
  • RPC-Based Distributed Training(RPC),参考文档
    • 适用于DDP不能使用的情况,例如 distributed pipeline parallelism, parameter server paradigm 等。
  • Collective Communication(c10d),参考文档
    • 提供了 collective communication 和P2P communication 两种通信方式。
    • DDP使用了前者,RPC使用了后者。
    • 一般情况下,开发人员不会直接使用c10d,但也有直接使用的情况,后续文档会介绍。

2. 数据并行

3. RPC训练方式

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值