cache友好矩阵相乘写法

本文探讨了两种矩阵相乘的写法,对比了它们的访存效率。传统方法中,按列访问B矩阵导致cache miss频繁。而优化后的cache友好方法,通过按行访问B矩阵提高缓存利用率,从而提升计算性能。为了实现优化,C矩阵的初始化也是关键步骤之一。
摘要由CSDN通过智能技术生成

普通矩阵相乘写法

访存分析
1、内层循环每次迭代可以计算一个C1元素,需要做以下访存操作

2、load A 矩阵第i 行,对A矩阵存储访问对cache友好,而且在第二层循环迭代间具有重用

3、load B 矩阵第j列,按列访问对 cache 特别不友好,特别是当矩阵规模很大时,很容易miss

for(int i=0; i<N; ++i){
   
		for(int j=0; j<M; ++j){
   
			int c = 0;
			for(int k=0; k<K; ++k){
   
				c += A[i][k] * B[k][j];
			}
			C1[i][j] = c;
		}
	}

cache友好矩阵相乘写法

访存分析
1、内层循环每执行完成 C2 矩阵第 i 层结果的部分和

2、A 矩阵的访问和前一种方式类似,即按行访问,且行会被重用

3、内层循环按行访问B 矩阵,相比前一种方法按列访问更加地友好

值得注意的时,C2需要提前初始化

for(int i=0; i<N; ++i){
   
		for(int
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值