以矩阵乘法为例,了解cpu cache对程序性能的影响

原创 2013年09月16日 23:52:21
/*square1.cpp*/
/*未经优化的矩阵乘法程序*/
#include 
using namespace std;
#define N 1000
int a[N][N] = {0}, b[N][N] = {0}, c[N][N] = {0};
int main() {
    int i, j, k;
    for (i = 0; i < N; i++) {
        for (j = 0; j < N; j++) {
            a[i][j] = i+j;
            b[i][j] = i+j;
        }
    }
    for (i = 0; i < N; i++) {
        for (j = 0; j < N; j++) {
            for (k = 0; k < N; k++) {
                c[i][j] += a[i][k] * b[k][j];
            }

        }
    }
}
 
/*square2.cpp*/  
/*优化过的矩阵乘法程序*/  
#include   
using namespace std;  
#define N 1000  
int a[N][N] = {0}, b[N][N] = {0}, c[N][N] = {0};  
int main() {  
    int i, j, k;  
    for (i = 0; i < N; i++) {  
        for (j = 0; j < N; j++) {  
            a[i][j] = i+j;  
            b[i][j] = i+j;  
        }  
    }  
    for (i = 0; i < N; i++) {  
        for (k = 0; k < N; k++) {  
            for (j = 0; j < N; j++) {  
                c[i][j] += a[i][k] * b[k][j];  
            }  
  
        }  
    }  
}
两段程序的唯一差别,就是把 三层循环中的 j 循环 和k 循环的顺序交换了一下。

square1.cpp中因为第三层循环(最内层循环)是对k进行循环,因此b[k][j]是对b逐列进行访问。我们知道内存中二维数组是以行为单位连续存储的,逐列访问将会每次跳1000*4(bytes)。根据cpu cache的替换策略,将会有大量的cache失效。

因此square2.cpp将j循环和k循环交换位置,这样就保证了

c[i][j] += a[i][k] * b[k][j];

这条语句对内存的访问是连续的,增加了cache的命中率,大大提升了程序执行速度。

我们来看一下实测效果:(测试环境:64位双核2.4GHz cpu)

执行时间测试:


时间居然会相差近10倍。 可见利用好cpu cache优化我们的程序,是非常有必要掌握的技能。

平时写程序时,也应当尽量使cpu对内存的访问,是尽可能连续的。

关于CPU的Cache

0 前言 这其实是对参考文献的一些总结和翻译,有一些内容和原文的顺序不一致,另外就是我的翻译水平不高,一些用词可能不准确。 本来想大部分都翻译的,不过后面一些看起来有点迷糊,而且发现其实和...
  • gogdizzy
  • gogdizzy
  • 2013-07-19 17:44:13
  • 9002

Cpu Cache对程序性能分析

转自:http://igoro.com/archive/gallery-of-processor-cache-effects/ Most of my readers will understan...
  • cpucooler2011
  • cpucooler2011
  • 2016-01-24 19:23:08
  • 383

矩阵相乘效率比较

牛客网上的一道题深度学习是当前很热门的机器学习算法,在深度学习中,涉及到大量的矩阵相乘,现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m*n,n*p,p*q,且m&amp;l...
  • legend_hua
  • legend_hua
  • 2018-04-12 10:07:39
  • 19

程序性能优化探讨(6)——矩阵乘法优化之分块矩阵

有一种性格叫做偏执,有一种矩阵优化运算叫做分块。实话说,也许我这辈子也用不上这种随牛B但很复杂的算法,有些版本的教材直接删除这个内容。但越是这样我越想不过,因此借写这篇博客,把分块矩阵乘法彻底分析清楚...
  • u013471946
  • u013471946
  • 2015-02-26 22:47:43
  • 1890

矩阵乘法优化算法

本篇文章大部分思路与代码都来自于微信公众号“CPP开发者”中2016年4月11日的文章《矩阵相乘优化算法实现讲解》,基本相当于这篇文章的重点重述。 矩阵是什么以及矩阵乘法是怎么操作的,我想点开这篇文...
  • dannis_bh
  • dannis_bh
  • 2016-04-12 22:25:12
  • 3548

CSAPP读书笔记第六章(优化cache命中率)

(1)局部性:(1)局部性:程序具有时间局部性和空间局部性.时间局部性是指当前用的存储器位置可能在不久的将来被用到,会被放入告诉缓存。空间局部性则是指一个存储器位置被用到,那么相邻的几个位置在不久的将...
  • pp634077956
  • pp634077956
  • 2016-10-26 22:05:38
  • 3166

Cache 优化(矩阵乘积为例)

Degrees of Latency The latency of data access becomes greater with each cache level. Latency of mem...
  • mathgeophysics
  • mathgeophysics
  • 2013-08-21 03:47:39
  • 2009

矩阵乘法cache优化

好文要转,太棒了~~~~~~~~~~~~~~~~~~~~~~~~~ 题目地址:http://www.51nod.com/onlineJudge/questionCode.html#!proble...
  • Scythe666
  • Scythe666
  • 2015-05-05 17:03:24
  • 2488

cpu gpu做矩阵乘法效率比对,虽然如此,但是对需要自己做的算法是否能如此高效的提高还是未知

vs2008上创建cuda项目,新建test.cu文件,将如下代码拷贝进去,编译执行,能很清楚地看到GPU跑矩阵乘法和CPU的效率区别。在我的pc机上执行得到如下结果,可见矩阵乘法的GPU效率大概提高...
  • a925907195
  • a925907195
  • 2014-09-25 12:16:18
  • 1567

CPU CACHE优化 性能优化方法和技巧

转载来源:http://blog.chinaunix.net/uid-7319742-id-2059720.html
  • nickwong_
  • nickwong_
  • 2014-08-22 15:42:40
  • 2802
收藏助手
不良信息举报
您举报文章:以矩阵乘法为例,了解cpu cache对程序性能的影响
举报原因:
原因补充:

(最多只允许输入30个字)