cache miss问题C++示例

原题是:

const int LEN = 64*1024*1024;
int *arr = new int[LEN];
for (int i = 0; i < LEN; i += 2) arr[i] *= i; // 循环1
for (int i = 0; i < LEN; i += 8) arr[i] *= i; // 循环2

第二个循环比第一个循环少了四倍的计算量,理论上应该要快4倍,但是实际跑起来的数据,我自己的机器跑出来的数据:

循环1执行时间:339.960 ms

循环2执行时间:325.230 ms

两个循环的执行时延相差无几。和我们的想象很不一样,why?


写个小程序验证:

#include <iostream>
#include <ctime>
#include <array> 
using namespace std;
int main()
{
	const int LEN = 64 * 1024 * 1024;

	int *a = new int [LEN];
	cout << "a的长度是" << sizeof(a) << endl;
	cout << "*a的长度是" << sizeof(*a) << endl;
	cout << "int 的长度是" << sizeof(int) << endl;
	for (int i = 0; i < LEN; i += 2)
	{
		a [i] = i * 3;
	}
	clock_t endTime = clock();
	cout << "程序执行时间为" << (double)endTime / CLOCKS_PER_SEC * 1e3 << "ms" << endl;

	const int LEN_1 = 64 * 1024;
	array<int, LEN_1> b;
	cout << "b的长度 " << b.size() << endl;
}

输出结果是:

a的长度是8
*a的长度是4
int 的长度是4
程序执行时间为270.029ms
b的长度 65536

注意程序执行时间有一定的随机性,大致在270ms附近浮动,此时循环的步长是2。

而将步长改为8后,程序执行时间如下:

a的长度是8
*a的长度是4
int 的长度是4
程序执行时间为217.026ms
b的长度 65536

可以看到,步进是2和8的执行时间的确相差不大。
为此我们测试了以下几组数据,绘制表格大致如下:
在这里插入图片描述
在这里插入图片描述

感觉还是不太对,步长到16之后,时间并未出现减半式的下跌。不知道问题出在哪。
原题在以下链接中:
http://igoro.com/archive/gallery-of-processor-cache-effects/


第2天:
原题的答案是和计算机硬件结构直接相关的,《现代操作系统》的第1.3.2节 存储器,书中所讲与本题的官方答案基本一致。带着题目看书的过程中,也加深了我对计算机存储结构的理解。所以在这里用自己的话总结一下。
计算机中的典型的存储结构如下图所示:
在这里插入图片描述
计算机的典型存储单元包括寄存器、高速缓存、主存、磁盘。自上而下看,越往下的存储器,从架构上说,其离CPU越远,运行速度越慢,但容量也更大。

第一层的寄存器是最接近CPU的存储器,其材质和CPU一样,所以有着和CPU同样的存取速度。其实也很好理解,因为它要保证CPU指令的正常执行,所以他们一样快就行了。但是其造价昂贵,所以其大小一般就是32 * 32bit = 128B(32位操作系统)或64 * 64bit = 512B(64位操作系统),很明显连1KB都不到。

第二层是高速缓存,或者简称为缓存,它本来是属于主存的一部分,但是它在架构上离CPU更近一些,其每行有64字节数据,称为“高速缓存行”。假设其大小为4MB,则其一共有64 000个高速缓存行。当CPU运行指令所需的数据在高速缓存行中时,称为“命中”。当没有命中时,高速缓存行就需要向总线申请向主存中调取数据。正是因为缓存速度快,所以工程师们又将其分为L1级缓存和L2级缓存。其中L1级缓存没有时延,就类似于寄存器,而L2级缓存会有1-2个时钟周期的时延,但也非常短了。

第三层是主存(内存),也称为RAM(random access memory,随机访问存储器)。我的云桌面的主存就是12G的(本书是2017年及以前更新和编写的,那时的容量可能就只有1-8G),主存里存的东西都是暂时的,当电脑关机后,就丢失了。

第四层是磁盘,这里讲的是盘面会旋转的,带有磁头的机械硬盘,类似于留声机。其实这个也快淘汰了,因为我的Mac电脑里就没有机械硬盘了,取而代之的是固态硬盘(solid state disk,SSD),机械硬盘的读写速度可能只有10M/s,而固态硬盘能达到500M/s。但是它的速度和主存仍然不是一个数量级的。

对于这个题目,程序在运行到声明数组时,是要给他申请内存的,也就是说数组里的数全存在主存里。当CPU运行的乘法指令时,乘法本身很快,因为CPU里有乘法器硬件。但是高速缓存行里没有数组的各个数字。所以此时需要去内存中取,而这个过程叫cache存取。

高速缓存行的长度是64字节,而一个int整型的长度是4个字节,高速缓存行去取数字时,不是每个字节依次取,而是一次性取满整行。所以一个高速缓存行一次可以取16个int整型。

高速缓存行一旦无法命中,则要重新来主存取数。甭管循环步长是1-16之间的任何数字,高速缓存行都得挨个将所有主存的的64M数据都取走,但一旦步长是32时,情况发生了变化,高速缓存行每隔16个int取一次,所以时间缩短了一半。

指令执行的时间很快,而高速缓存行申请内存的过程很耗时间,这就是本题的关键。

通过假设也可以看出来,假设电脑的主频是2G,即在单核单线程单发射的结构的情况下,CPU每秒能运行2G条指令。64M个int字中,假设循环步长是2,则共有32M条指令需要运行,耗费时间是:
在这里插入图片描述
当步长是16时,共有4M就算运行这些指令不需要花时间,那也才比步长为2的快了16ms,但是程序的整体运行时间是300ms+,由此说明,存取数据的时间比指令运行时间长得多,二者不是一个数量级的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

码到程攻

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值