矩阵乘实现图解

最新推荐文章于 2024-07-05 14:27:23 发布

unknow_error

最新推荐文章于 2024-07-05 14:27:23 发布

阅读量450

点赞数 11

文章标签：矩阵线性代数

本文链接：https://blog.csdn.net/weixin_42132808/article/details/139883696

版权

当我们谈到矩阵乘时, 计算机是怎么理解的呢?

Today, 我们用图推理解矩阵乘基础实现, 并测试不同数据布局下的单核性能差别~

C = A X B

行主存储实现

基础cpu单线程矩阵乘
以C矩阵的结果索引计算:

C[n * i + j] = A[i * k + l] + B[l*n+j];

将该索引公式采用循环计算实现:

for (i = 0; i < m; i++) {
  for (j = 0; j < n; j++) {
    for (l = 0; l < k; l++) {
      C[n * i + j] = A[i * k + l] + B[l*n+j];
    }
  }
}

可以看出, 行主存储的方式对A矩阵来说数据局部性更好, 而对B矩阵则存在访存不连续问题, 若是将B矩阵改为列主存储, 重新计算索引:
C[n * i + j] = A[i * k + l] + B[j*k+l];

//行主 + 列主
for (i = 0; i < m; i++) {
  for (j = 0; j < n; j++) {
    for (l = 0; l < k; l++) {
      C[n * i + j] = A[i * k + l] + B[j*k+l];
    }
  }
}

分别给出A \B矩阵大小分别给1024x1024 的shape ,测试不同实现:
----------[1024 x 1024]----------
cpu matmul : [ Test count : 1 ; CPU Avg Time : 10294.806000 ms ; Wall Avg Time : 10296.592412 ms ]
cpu matmul with transpose: [ Test count : 1 ; CPU Avg Time : 4750.649000 ms ; Wall Avg Time : 4751.303317 ms ]

速度提升了2.x倍, 说明对CPU来说数据布局的重要程度非常高 .

当然, 第二种实现没有加上transpose的时间, 我们继续编写case进行测试:

矩阵转置的实现与内存布局
分别单独统计转置加矩阵乘时间:

  EVALUATE(cpu_transpose(B_T, B, k, n), 1, "seprate transpose");
  EVALUATE(cpu_gemm_with_transpose(A, B_T, C1, m, n, k), 1, "seperate matmul");

cpu matmul: [ Test count : 1 ; CPU Avg Time : 10290.696000 ms ; Wall Avg Time : 10291.367832 ms ]
seprate transpose [ Test count : 1 ; CPU Avg Time : 20.587000 ms ; Wall Avg Time : 20.585797 ms ]
seperate matmul [ Test count : 1 ; CPU Avg Time : 4752.434000 ms ; Wall Avg Time : 4752.665653 ms ]

match