普通矩阵相乘写法
访存分析
1、内层循环每次迭代可以计算一个C1元素,需要做以下访存操作
2、load A 矩阵第i 行,对A矩阵存储访问对cache友好,而且在第二层循环迭代间具有重用
3、load B 矩阵第j列,按列访问对 cache 特别不友好,特别是当矩阵规模很大时,很容易miss
for(int i=0; i<N; ++i){
for(int j=0; j<M; ++j){
int c = 0;
for(int k=0; k<K; ++k){
c += A[i][k] * B[k][j];
}
C1[i][j] = c;
}
}
cache友好矩阵相乘写法
访存分析
1、内层循环每执行完成 C2 矩阵第 i 层结果的部分和
2、A 矩阵的访问和前一种方式类似,即按行访问,且行会被重用
3、内层循环按行访问B 矩阵,相比前一种方法按列访问更加地友好
值得注意的时,C2需要提前初始化
for(int i=0; i<N; ++i){
for(int