以矩阵乘法为例 了解cpu cache对程序性能的影响

 1
  2
  3
  4
  5
  6
  7
  8
  9
 10
 11
 12
 13
 14
 15
 16
 17
 18
 19
 20
 21
 22
 23
      
      
/*square1.cpp*/
/*未经优化的矩阵乘法程序*/
#include <iostream>
using namespace std ;
#define N 1000
int a [ N ][ N ] = { 0 }, b [ N ][ N ] = { 0 }, c [ N ][ N ] = { 0 };
int main () {
int i , j , k ;
for ( i = 0 ; i < N ; i ++ ) {
for ( j = 0 ; j < N ; j ++ ) {
a [ i ][ j ] = i + j ;
b [ i ][ j ] = i + j ;
}
}
for ( i = 0 ; i < N ; i ++ ) {
for ( j = 0 ; j < N ; j ++ ) {
for ( k = 0 ; k < N ; k ++ ) {
c [ i ][ j ] += a [ i ][ k ] * b [ k ][ j ];
}
}
}
}
来自CODE的代码片
square1.cpp
  1
  2
  3
  4
  5
  6
  7
  8
  9
 10
 11
 12
 13
 14
 15
 16
 17
 18
 19
 20
 21
 22
 23
            
            
/*square2.cpp*/
/*优化过的矩阵乘法程序*/
#include <iostream>
using namespace std ;
#define N 1000
int a [ N ][ N ] = { 0 }, b [ N ][ N ] = { 0 }, c [ N ][ N ] = { 0 };
int main () {
int i , j , k ;
for ( i = 0 ; i < N ; i ++ ) {
for ( j = 0 ; j < N ; j ++ ) {
a [ i ][ j ] = i + j ;
b [ i ][ j ] = i + j ;
}
}
for ( i = 0 ; i < N ; i ++ ) {
for ( k = 0 ; k < N ; k ++ ) {
for ( j = 0 ; j < N ; j ++ ) {
c [ i ][ j ] += a [ i ][ k ] * b [ k ][ j ];
}
}
}
}
来自CODE的代码片
square2.cpp
两段程序的唯一差别,就是把 三层循环中的 j 循环 和k 循环的顺序交换了一下。

square1.cpp中因为第三层循环(最内层循环)是对k进行循环,因此b[k][j]是对b逐列进行访问。我们知道内存中二维数组是以行为单位连续存储的,逐列访问将会每次跳1000*4(bytes)。根据cpu cache的替换策略,将会有大量的cache失效。

因此square2.cpp将j循环和k循环交换位置,这样就保证了

c[i][j] += a[i][k] * b[k][j];

这条语句对内存的访问是连续的,增加了cache的命中率,大大提升了程序执行速度。

我们来看一下实测效果:(测试环境:64位双核2.4GHz cpu)

执行时间测试:


时间居然会相差近10倍。 可见利用好cpu cache优化我们的程序,是非常有必要掌握的技能。

平时写程序时,也应当尽量使cpu对内存的访问,是尽可能连续的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值