以矩阵乘法为例，了解cpu cache对程序性能的影响

最新推荐文章于 2024-06-22 09:51:05 发布

lisendong0126

最新推荐文章于 2024-06-22 09:51:05 发布

阅读量6.3k

点赞数 4

分类专栏：系统

本文链接：https://blog.csdn.net/A775700879/article/details/11750703

版权

系统专栏收录该内容

3 篇文章 0 订阅

订阅专栏

/*square1.cpp*/
/*未经优化的矩阵乘法程序*/
#include 
   
   
    
    
using namespace std;
#define N 1000
int a[N][N] = {0}, b[N][N] = {0}, c[N][N] = {0};
int main() {
    int i, j, k;
    for (i = 0; i < N; i++) {
        for (j = 0; j < N; j++) {
            a[i][j] = i+j;
            b[i][j] = i+j;
        }
    }
    for (i = 0; i < N; i++) {
        for (j = 0; j < N; j++) {
            for (k = 0; k < N; k++) {
                c[i][j] += a[i][k] * b[k][j];
            }

        }
    }
}

/*square2.cpp*/  
/*优化过的矩阵乘法程序*/  
#include 
    
    
     
       
using namespace std;  
#define N 1000  
int a[N][N] = {0}, b[N][N] = {0}, c[N][N] = {0};  
int main() {  
    int i, j, k;  
    for (i = 0; i < N; i++) {  
        for (j = 0; j < N; j++) {  
            a[i][j] = i+j;  
            b[i][j] = i+j;  
        }  
    }  
    for (i = 0; i < N; i++) {  
        for (k = 0; k < N; k++) {  
            for (j = 0; j < N; j++) {  
                c[i][j] += a[i][k] * b[k][j];  
            }  
  
        }  
    }  
}

两段程序的唯一差别，就是把三层循环中的 j 循环和k 循环的顺序交换了一下。

square1.cpp中因为第三层循环（最内层循环）是对k进行循环，因此b[k][j]是对b逐列进行访问。我们知道内存中二维数组是以行为单位连续存储的，逐列访问将会每次跳1000*4(bytes)。根据cpu cache的替换策略，将会有大量的cache失效。

因此square2.cpp将j循环和k循环交换位置，这样就保证了

c[i][j] += a[i][k] * b[k][j];

这条语句对内存的访问是连续的，增加了cache的命中率，大大提升了程序执行速度。

我们来看一下实测效果：(测试环境：64位双核2.4GHz cpu)