首先看如下代码
public class CpuCacheTest {
static final int LINE_NUM = 10240;
static final int COLUM_NUM = 10240;
public static void main(String[] args) {
//定义一个10240*10240的二维数组
long[][] array = new long[LINE_NUM][COLUM_NUM];
testQuick(array);
testSlow(array);
}
public static void testQuick(long[][] array) {
long startTime = System.currentTimeMillis();
for (int i = 0; i < LINE_NUM; i++) {
for (int j = 0; j < COLUM_NUM; j++) {
array[i][j] = 1;
}
}
System.out.println("testQuick = " + (System.currentTimeMillis() - startTime));
}
public static void testSlow(long[][] array) {
long startTime = System.currentTimeMillis();
for (int i = 0; i < LINE_NUM; i++) {
for (int j = 0; j < COLUM_NUM; j++) {
array[j][i] = 1;
}
}
System.out.println("testSlow = " + (System.currentTimeMillis() - startTime));
}
}
定义一个10240*10240大小的二维数组,分别以横向和竖向的方式为每个元素进行赋值。现在观察两种方式的耗时时间:
testQuick = 191
testSlow = 2146
为什么横向赋值的方式比竖向的要小这么多呢?这里就涉及到空间局部性以及Cpu Cache。
空间局部性:如果一个数据被访问,那么与其相邻的数据也可能会被访问。
Cpu Cache:cpu和内存之间存在巨大的访问速度差异(一次内存的访问,大约需要120个CPU Circle),因此在两者之间加入了缓存。其中将内存中的数据加载到Cache中的基本单位为Cache Line缓存行,一般Intel处理器中的缓存行的大小为64字节。
分析开篇的问题,横向赋值时,由于数组地址是连续的,因此一次会将64字节的数组元素加载到Cache中,这样cpu就能直接从缓存中取数据而不是访问内存,这样就节省了大量的时间。纵向赋值时,要访问的数组元素的地址是跳跃的,无法命中缓存中地址连续的元素,因此每次都要从内存中读取,时间很慢