Strassen+CUDA矩阵乘法实现550倍加速

最新推荐文章于 2024-05-07 16:06:19 发布

DiStaNcE9790

最新推荐文章于 2024-05-07 16:06:19 发布

阅读量911

点赞数 2

分类专栏： CUDA 文章标签：并行计算多线程算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DiStaNcE9790/article/details/109737980

版权

文章目录

CPU简单暴力运算

矩阵乘法C=A*B就是把A中的每一行去乘以B中的每一列，得到的数就是C中某行某列的元素，下面是简单的三层循环的实现
ma,mb指矩阵A和B的行数，na,nb列数

float* matrix_product_v1(float* matrixA, float* matrixB, int ma, int na, int mb, int nb) {
    float* ans = new float[ma * nb]{ 0 };
    for (int i = 0; i < ma; i++) {
        for (int j = 0; j < nb; j++) {
            for (int k = 0; k< na; k++) {
                ans[i * nb +j] += matrixA[i* na+k] * matrixB[k* nb+j];
            }
        }
    }
    return ans;
}

这种代码每测试一次都是一种煎熬
用生成的200M个数据测试，10000*10000的两个矩阵相乘用了140分钟，将近两个半小时

并行多线程+Strassen矩阵乘法

矩阵乘法有这么多行这么多列，很明显是并行计算的老本行。接下来我们尝试并行处理加速，为接下来CUDA做一些铺垫

先介绍一下Strassen算法：

关于Strassen算法

矩阵乘法的运算三次循环不可避免，它的时间复杂度达到恐怖的O(n^3)，对于200M数据的运算是一个天文数字。Strassen算法的核心是分治、空间交换时间、加法交换乘法。

首先将矩阵A和B拆分成分块矩阵A1, A2, A3, A4, B1, B2, B3, B4
$\left[ \begin{matrix} A11 & A12\\ A21 & A22 \end{matrix} \right]$

$\left[ \begin{matrix} B11 & B12\\ B21 & B22 \end{matrix} \right]$

最低0.47元/天解锁文章

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

DiStaNcE9790 CSDN认证博客专家 CSDN认证企业博客

码龄5年

1: 原创

142万+: 周排名

222万+: 总排名

908: 访问

: 等级

15: 积分

1: 粉丝

2: 获赞

1: 评论

7: 收藏

私信

关注

热门文章

Strassen+CUDA矩阵乘法实现550倍加速 911

分类专栏

CUDA 1篇

最新评论

Strassen+CUDA矩阵乘法实现550倍加速
普通网友: 请问为什么矩阵要用一维数组来表示呢

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。