【分布式深度学习-文章阅读】GPipe: Efficient Training of Giant Neural Networksusing Pipeline Parallelism

Jie Ou

已于 2022-08-15 10:53:23 修改

阅读量1.7k

点赞数 2

分类专栏：分布式深度学习文章标签：深度学习人工智能分布式

于 2022-08-15 10:52:31 首次发布

本文链接：https://blog.csdn.net/github_36923418/article/details/126341569

版权

分布式深度学习专栏收录该内容

3 篇文章

订阅专栏

一、小纪要

1、这篇文章是近期大多数做分布式并行训练的 baseline之一；

2、这篇文章侧重点就是model parallelism，往细了说就是layer parallelism，再通俗点就是，grouped layer parallelism；

3、曾经最常用的是，data parallelism，但是随着transformer等大模型的出现，不用model parallelism基本上等于放弃研究了，所以model parallelism再次回归，然后大热。

二、提出问题

1、大多数现存的model parallel在结构上会有特定要求或改变，或者只能针对一些特殊任务；（就是会设计模型修改）

2、玩深度学习的人需要一个可靠，灵活的框架来实现model parallelism

3、模型越来越深，参数越来越多

作者给出了下，近期在CV和NLP两个领域的模型与精度的点图，就是想让我们看下，参数越多精度越高

三、解决方法

1、将网络模型的layer 分组，每一个组是一个连续的layer序列

2、将minibatch（B）划分，提出microbatch（m)概念，B = M * m(这里M 就是microbatch的个数，理论上在Gpipe文章中，应该等于pipeline的个数）

首先对“字母”进行一下说明：每个模型有 $L$ 层， $L_{i}$ 就代表了某些的某一层，因此对应的forward标记为 $f_{i}$ ，参数标记为 $w_{i}$ ; $c_{i}$ 代表了计算开销；

假设我们要把整个model划分为 $K$ 个部分，每个部分用 $p_{k}$ 表示，其中包含了从 $i$ 到 $j$ 的layer；那么 $p_{k}$ 对应的forward就等价于 $f_{i}\cdot f_{i+1}...\cdot f{j}$ ;同理开销函数 $C_{k}= \sum_{j}^{l=i} c_{l}$

因此，使用Gpipe就需要自定义三个东西（K，M--microbatch的个数，定义序列L）

这里可以发现，作者提出的方法，存在bubble time， $O(\frac{K-1}{M+K-1})$ ，但是当 $M\geq 4 \times K$ 的时候这个bubble time就不用很在乎了

3、这种方式也可以和data parallelism结合，进一步增加并行规模（比如，可以每个node上多卡进行pipeline parallelism，跨node进行data parallelism）

4、re-materialization 重计算技术，因为pipeline之后，在等待反向传播的时候，需要保留每个layer，每个microbatch的activation，这部分需要很多的内存；因此可以不保存，只需要保存每个小组的output在内存中即可；反向传播的时候重新计算整个 $F_{k}$ ，就可以重建全部的activation；