ColumnParallelLinear 和 RowParallelLinear

道真人

已于 2024-07-31 16:04:51 修改

阅读量2.3k

点赞数 20

文章标签：算法人工智能

于 2024-07-30 16:54:52 首次发布

本文链接：https://blog.csdn.net/m0_63372012/article/details/140800794

版权

ColumnParallelLinear 和 RowParallelLinear 是两种并行线性层，它们的主要区别在于权重矩阵的分割方式和计算过程。具体来说：

ColumnParallelLinear

权重矩阵分割方式：
- 权重矩阵 W 被按列（column）分割成多个子矩阵，每个子矩阵在并行设备上进行计算。
- 如果权重矩阵 W 的形状是 (output_dim, input_dim)，它会被分割成 P 个子矩阵，每个子矩阵的形状是 (output_dim, input_dim / P)。

计算过程：(矩阵块的运算法则与一般矩阵运算相同)

The linear layer is defined as Y = XA + b. A is parallelized along
    its second dimension as A = [A_1, ..., A_p].

优势：
- 适合输入数据较小但输出维度较大的场景。

RowParallelLinear

权重矩阵分割方式：
- 权重矩阵 W 被按行（row）分割成多个子矩阵，每个子矩阵在并行设备上进行计算。
- 如果权重矩阵 W 的形状是 (output_dim, input_dim)，它会被分割成 P 个子矩阵，每个子矩阵的形状是 (output_dim / P, input_dim)。
计算过程：(矩阵块的运算法则与一般矩阵运算相同)

The linear layer is defined as Y = XA + b. A is parallelized along
    its first dimension and X along its second dimension as:
               -   -
              | A_1 |
              | .   |
          A = | .   |        X = [X_1, ..., X_p]
              | .   |
              | A_p |
               -   -