矩阵乘法的并行算法优化

最新推荐文章于 2022-09-16 00:20:02 发布

rlf1025

最新推荐文章于 2022-09-16 00:20:02 发布

阅读量865

点赞数

伪代码：

for (i = 0; i < M; ++i){
for (j = 0; j < P; ++j){
C[i][j] = 0;
for (k = 0; k < N; ++k){
C[i][j] += A[i][k] * B[k][j];
}
}
}

时间复杂度为O(M*N*P)。

(1). 多线程

#prama omp parallel for num_threads(CORE_NUM)
（2）
C矩阵的大小为M * P，我们可以将C的计算下平均分配到每个核心上，即每个核分配ceil(M*P/CORE_NUM)个计算任何，即将上面的第一和第二层并行化。

首先将C转换成一维的数组T[M*P] , 则C[i][j] = T[i * M + j], 反过来T[z] = C[z/M] [ z %P]。

故进一步的并行算法为：
1. #prama omp parallel for num_threads(NUM)
2. for (z = 0; z < M * P; ++z){
3. i = z / P;
4. j = z % P;
5. C[i][j] = 0;
6. for (k = 0; k < N; ++k){
7. C[i][j] += A[i][k] * B[k][j];
8. }
9. }
（3）最里面一层的计算
1. for (k = 0; k < N; ++k){
2. C[i][j] += A[i][k] * B[k][j];
由于内存中二维数组是以行优先进行存储的，因此B[k][j]存在严重的cache命中率问题，解决这个问题的方法是也将B进行一次沿对角线进行翻转，使得最里面的计算变成
1. for (k = 0; k < N; ++k){
2. C[i][j] += A[i][k] * B[j][k];
另外一点需要注意的就是C[i][j] += A[i][k] * B[j][k];计算时的伪共享问题。

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
矩阵乘法的并行算法优化

伪代码：for (i = 0; i for (j = 0; j C[i][j] = 0; for (k = 0; k C[i][j] += A[i][k] * B[k][j]; } } } 时间复杂度为O(M*N*P)。 (1). 多线程
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。