2009 英特尔® 线程挑战赛第七题矩阵乘法

最新推荐文章于 2021-03-13 20:49:58 发布

denghui0815

最新推荐文章于 2021-03-13 20:49:58 发布

阅读量3k

点赞数 1

文章标签：英特尔算法 concurrency parallel 优化多线程

本文链接：https://blog.csdn.net/denghui0815/article/details/4960084

版权

2009 英特尔® 线程挑战赛—线段求交

邓辉 denghui0815@hotmail.com

问题描述

问题：编写一段多线程代码，使用 Strassen 算法将两个随机矩阵相乘。应用程序将生成两个矩阵：A(M,P) 和 B(P,N)，您需要使用 (1) 串行算法和 (2) Strassen 算法将它们相乘，得到乘积 C(M,N)。然后比较这两种算法的计算结果，确保使用 Strassen 算法得到的结果与使用串行算法得到的结果一致。

通过命令行输入应用程序参数值。输入的值将是 3 个整数（M、N 和 P），用来描述要使用的矩阵的大小。

代码限制：我们会预先提供一个用 C 语言编写的非常简单的串行计算应用程序。您应该在此源文件的基础上添加多线程代码，保留原来 main 函数、矩阵生成函数、串行乘法代码以及矩阵乘积结果比较函数的主体部分。如果要用其他语言实现，可以对这些代码做相应的更改。另外还可以更改内存分配和其他代码，以便实现 Strassen 计算的线程化。（建议您在编写代码时记下所做的更改以及进行这些更改的理由。）完成更改后，您提交的解决方案必须使用某种形式的 Strassen 算法计算出第二个矩阵乘积。

串行算法

原始的矩阵乘法为复杂度均为O(n^3），当矩阵足够大时，计算效率会非常低下，1969年提出的Strassen 矩阵乘法采用分治法，将A和B各分为四个子矩阵进行运算，降低了矩阵乘法的复杂度，算法如下：

S1 = A00 + A11 M1 = S1 x S6 C00 = M1 + M4 – M5 + M7

S2 = A10 + A11 M2 = S2 x B11 C01 = M3 + M5

S3 = A00 + A01 M3 = A00 x S7 C10 = M2 + M4

S4 = A10 – A00 M4 = A11 x S8 C11 = M1 + M3 – M2 + M6

S5 = A01 – A11 M5 = S3 x B11

S6 = B00 + B11 M6 = S4 x S9

S7 = B01 – B11 M7 = S5 x S10

S8 = B10 – B00

S9 = B00 + B01

S10 = B10 +B11

共采用7次乘法和18次加减法运算。

Winograd Strassen是一种变形的矩阵乘法，其原理相同，算法如下：

S1 = A10 + A11 M1 = S2 x S6 T1 = M1 + M2 C00 = M2 + M3

S2 = S1 - A00 M2 = A00 x B00 T2 = T1 + M4 C01 = T1 + M5 + M6

S3 = A00 - A10 M3 = A01 x B10 C10 = T2 - M7

S4 = A01 - S2 M4 = S3 x S7 C11 = T2 + M5

S5 = B01 - B00 M5 = S1 x S5

S6 = B11 - S5 M6 = S4 x B11

S7 = B11 - B01 M7 = A11 x S8

S8 = S6 - B10

共采用7次乘法和15次加减法运算。

由于少3次加减法运算，所以Winograd效率会高于标准的Strassen 矩阵算法，但这两种算法的复杂度均为O(n^2.81）。

为提高效率，采用SSE2指令优化小块矩阵乘法运算C = A x B及C += A x B,见函数XSM_Mul_Small和XSM_MulAdd_Small，数据要求：矩阵的数据指针pA,pB,pC均为16字节对齐，n必须为16的倍数，p必须为2的倍数.

由于矩阵运算的数据量较大，cache命中率显得非常重要，所以对于中等尺寸的矩阵乘法采用先计算A00 x B00，A00 x B01，A10 x B01，A10 x B00再计算A01 x B10，A01 x B11，A11 x B11，A11 x B10的方法提高cache命中率。

Winograd Strassen矩阵乘法是一个递归算法，而且需要在递归函数内部使用内存保存中间结果S1—S8，M1—M7，T1，T2。如果在递归函数内存动态分配的方式，时间开销会比较大，所以采用在外部根据M，N，P的值计算整个递归需要的临时数据空间，动态分配后，传入递归函数内使用，降低时间开销。

并行算法

通过使用TBB的Task，可以很方便的将递归算法并行化，在tbb::task* execute()中分裂7个子Task分别计算M1—M7即可实现Strassen矩阵乘法的并行优化。主要代码如下：

tbb::task* execute()

{

if (m_nDepth == m_stUseOneMemoryDepth)

{ // 进入串行算法内，降低内存分配和多线程调度开销

XSM_Mul_Serial(m_nM, m_nN, m_nP, m_pA, m_nWidthA, m_pB, m_nWidthB, m_pC, m_nWidthC);

}

else

{

tbb::task_list list;

……

// M1 = S2 x S6