多面体循环学习之数据局部性

我们都知道多面体循环主要是解决数据局部性和并发处理的问题。并发性大家一般都能很清楚的知道是什么,那分块是怎么解决数据局部性的呢?
代码举例

for(int i=1;i<=N;i++){
	for(int j=1;j<=M;j++){
		A[i]=A[I]+B[J]
	}
}

我们看循环的执行顺序如何读取B块

i=1 B[1],B[2],...B[M]
i=2 B[1],B[2],...B[M]
...
I=n B[1],B[2],...B[M]

显然我们能知道当cache line有限时,例如为b时cache miss为N*M/b,我们肯定能尽可能减小数据未命中率,我们就需要做loop tiling。
loop tiling作用
cache line现在被用过以后,后面什么时候还会被用,但是按循环默认的执行方式,可能到下次再被用到的时候已经被evict了。于是我们就把循环怎么重排一下,使得一个cache line在被evict之前就被再次使用。

我们假设tile size为T,通常b能整除于T且N,M>>b,T.(b为cache line大小),同时T的取值能够保证B[T]被访问时,B[1]仍在内存中。

我们将循环改为

for(j=1;j<=M;j+=T){
	for(int i=1;i<=N;i++){
		for(int jj=j,jj<=min(j+T-1,M);j++){
			A[i] = A[i]+B[jj];
		}
	}
}

我们看循环的执行顺如何读取B块

I=1: B(1), B(2), B(3) ... B(T)
I=2: B(1), B(2), B(3) ... B(T)
I=3: B(1), B(2), B(3) ... B(T)
...
I=N: B(1), B(2), B(3) ... B(T)

I=1: B(T+1), B(T+2), B(T+3) ... B(2T)
I=2: B(T+1), B(T+2), B(T+3) ... B(2T)
I=3: B(T+1), B(T+2), B(T+3) ... B(2T)
...
I=N: B(T+1), B(T+2), B(T+3) ... B(2T)

我们可以看出当i执行循环时,并不影响B的命中率。只有当i发生改变的时候,才会出现未命中的情况。B的cache miss减少到M/T次。不过这种分块也会影响A缓存命中率。

原来A的访问次序是
I=1 A[1]
I=2 A[2]
I=N A[N]

现在A的访问次序成了

I=1: A(1)
I=2: A(2)
I=3: A(3)
...
I=N: A(n)

I=1: A(1)
I=2: A(n)
I=3: A(n)
...
I=N: A(n)

A的命中率(M/T) * (N/b),总的命中率为MN/bT+M/b,相比原来N/b+N*M/b,在N约等于M的时候缩小了T倍。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值