0 引言
本文介绍张量并行原理,只作为学习总结记录,错误请指出。
1 原理
流水线并行和张量并行都可以看作是模型并行的一种,只是对模型切分的维度不同,流水线并行可以看作是层间并行,将模型不同的层放到不同的GPU上,张量并行看作是层内并行,是对层内具体的矩阵运算进行拆分。

1.1 拆分方式
x为输入,A为权重参数,y为输出,按列拆分是保持x不变,将A按列拆分,分别计算后再拼接在一起。按行拆分是将x按列拆分,A按行拆分,分别计算后,再相加得到最终的输出。

在两张GPU上的具体的并行操作如图所示,思想就是将进行运算的矩阵拆分到不同的GPU上,然后将每个GPU上的运算结果进行汇总(GPU之间通信)。