smp下cpu cache并行测试

最新推荐文章于 2023-02-16 16:22:30 发布

iteye_16780

最新推荐文章于 2023-02-16 16:22:30 发布

阅读量479

点赞数

分类专栏：编程语言文章标签：并行编程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/iteye_16780/article/details/82540318

版权

编程语言专栏收录该内容

3 篇文章 0 订阅

订阅专栏

今天在看CPU cache时候，根据上面的例子做了个练习，发现了一个怪事情，没想明白

例子如下，在powerpc下面跑，多个power7的CPU：

例子一test：

#include <stdio.h>

#include <sys/time.h>

#include <unistd.h>

int main()

{

int steps = 256 * 1024 * 1024;

int a[] = {0,0};

int i ;

struct timeval start ;

struct timeval end ;

unsigned long diff ;

gettimeofday(&start, NULL);

for (i=0; i<steps; i++) { a[0]++; a[0]++; } -----此处为两个a[0]

gettimeofday(&end, NULL);

diff = 1000000 * (end.tv_sec - start.tv_sec) + (end.tv_usec - start.tv_usec);

printf("diff----%ld\n",diff);

}

例子2 test2：

#include <stdio.h>

#include <sys/time.h>

#include <unistd.h>

int main()

{

int steps = 256 * 1024 * 1024;

int a[] = {0,0};

int i ;

struct timeval start ;

struct timeval end ;

unsigned long diff ;

gettimeofday(&start, NULL);

for (i=0; i<steps; i++) { a[0]++; a[1]++; } ----此处为一个a[0]，一个a[1]

gettimeofday(&end, NULL);

diff = 1000000 * (end.tv_sec-start.tv_sec)+ end.tv_usec-start.tv_usec;

printf("diff2----%ld\n",diff);

}

执行./test;./test2

结果如下：

diff----3826802

diff2----1976746

现代处理器中对不同部分指令拥有一点并发性。这使得CPU在同一时刻访问L1两处内存位置，或者执行两次简单算术操作。在第一个循环中，处理器无法发掘这种指令级别的并发性，但第二个循环中就可以。所以test2比test快近一倍。

但将test和test2合并在一起

#include <stdio.h>

#include <sys/time.h>

#include <unistd.h>

#define mb() __asm__ __volatile__ ("sync" : : : "memory") ----此是因为怀疑cpu乱序这类造成引入

int main()

{

int steps = 256 * 1024 * 1024;

int a[] = {0,0};

int i ;

struct timeval start ;

struct timeval end ;

unsigned long diff ;

gettimeofday(&start, NULL);

for (i=0; i<steps; i++) { a[0]++; a[0]++; }

gettimeofday(&end, NULL);

diff = 1000000 * (end.tv_sec - start.tv_sec) + (end.tv_usec - start.tv_usec);

printf("diff----%ld\n",diff);

mb(); ------加和不加，对输出的数字有较大影响

gettimeofday(&start, NULL);

for (i=0; i<steps; i++) { a[0]++; a[0]++; } -----先用a[0]，后面用a[1]作不同实验

gettimeofday(&end, NULL);

diff = 1000000 * (end.tv_sec - start.tv_sec) + (end.tv_usec - start.tv_usec);

printf("diff2----%ld\n",diff);

}

加mb()

diff----3919898

diff2----6281302

去掉mb（）

diff----4068821

diff2----3803478

疑问：为什么加mb()之后，执行时间要多花这么多

改为a[1]，加mb（）

diff----3815021

diff2----3473165

不加mb（）

diff----3815935

diff2----3463169

考虑到误差，这两者基本一样

疑问：为什么分开两个程序，和一个程序内执行时间差别这么大。

有空看看两者产生的汇编语言，看看有什么不同之处。

并行编程真是个神奇的怪物，还有待深入。

这两天稍微有点空，看了一下汇编，在上面的mb()之前产生的汇编和mb（）之后产生的汇编不一样，估计就是传说中的乱序优化，在第一个gettimeofday(&start,NULL)之前加上mb()，其结果就比较正常了，a[0]++,a[0]++比a[0]++,a[1]++慢将近一倍

diff----6159865

diff2----3427905

但不加mb（），a[1]++这个速度相比下不明显，不知何故？

直接用 gcc -O2 -o test test.c，之后执行便变成了

diff----0

diff2----0

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
smp下cpu cache并行测试

今天在看CPU cache时候，根据上面的例子做了个练习，发现了一个怪事情，没想明白例子如下，在powerpc下面跑，多个power7的CPU：例子一test：#include &lt;stdio.h&gt;#include &lt;sys/time.h&gt;#include &lt;unistd.h&gt;int main(){ ...
复制链接

扫一扫

专栏目录

博客等级

码龄6年

29
原创

3
点赞

18
收藏

3
粉丝

关注

私信

热门文章

分类专栏

openjdk学习 22篇
杂类 8篇
思考 2篇
数据库 8篇
c++学习 4篇
linux学习 6篇
编程语言 3篇
mysql 2篇

最新评论

java解释器的阅读
tianxiawoyou: BytecodeInterpreter 这个解释器调试的时候根本没用到断点肯定不走的
athrow程序执行代码
AnEra: athrow 指令执行之后是不是跟return指令一样，其后面的指令不再执行了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。