分布式训练-模型并行（张量并行）-- 原理

最新推荐文章于 2025-04-14 06:05:33 发布

她的我

最新推荐文章于 2025-04-14 06:05:33 发布

阅读量2.9k

点赞数 22

文章标签：算法 llama 分布式 pytorch

本文链接：https://blog.csdn.net/weixin_42503655/article/details/135597408

版权

本文详细探讨了张量并行在Transformer模型中的应用，特别是MLP层和Attention层的并行策略，以及如何通过列切割和行切割进行GPU拆分，同时介绍了AllReduce在模型训练中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

0 引言

本文介绍张量并行原理，只作为学习总结记录，错误请指出。

1 原理

流水线并行和张量并行都可以看作是模型并行的一种，只是对模型切分的维度不同，流水线并行可以看作是层间并行，将模型不同的层放到不同的GPU上，张量并行看作是层内并行，是对层内具体的矩阵运算进行拆分。
在这里插入图片描述

1.1 拆分方式

x为输入，A为权重参数，y为输出，按列拆分是保持x不变，将A按列拆分，分别计算后再拼接在一起。按行拆分是将x按列拆分，A按行拆分，分别计算后，再相加得到最终的输出。
在这里插入图片描述
在两张GPU上的具体的并行操作如图所示，思想就是将进行运算的矩阵拆分到不同的GPU上，然后将每个GPU上的运算结果进行汇总（GPU之间通信）。