cache友好矩阵相乘写法

最新推荐文章于 2022-06-09 23:51:09 发布

zwconn

最新推荐文章于 2022-06-09 23:51:09 发布

阅读量517

点赞数 1

分类专栏：优化文章标签：算法内存优化

本文链接：https://blog.csdn.net/weixin_37842248/article/details/112549538

版权

本文探讨了两种矩阵相乘的写法，对比了它们的访存效率。传统方法中，按列访问B矩阵导致cache miss频繁。而优化后的cache友好方法，通过按行访问B矩阵提高缓存利用率，从而提升计算性能。为了实现优化，C矩阵的初始化也是关键步骤之一。

摘要由CSDN通过智能技术生成

普通矩阵相乘写法

访存分析
1、内层循环每次迭代可以计算一个C1元素，需要做以下访存操作

2、load A 矩阵第i 行，对A矩阵存储访问对cache友好，而且在第二层循环迭代间具有重用

3、load B 矩阵第j列，按列访问对 cache 特别不友好，特别是当矩阵规模很大时，很容易miss

for(int i=0; i<N; ++i){
   
		for(int j=0; j<M; ++j){
   
			int c = 0;
			for(int k=0; k<K; ++k){
   
				c += A[i][k] * B[k][j];
			}
			C1[i][j] = c;
		}
	}

cache友好矩阵相乘写法

访存分析
1、内层循环每执行完成 C2 矩阵第 i 层结果的部分和

2、A 矩阵的访问和前一种方式类似，即按行访问，且行会被重用

3、内层循环按行访问B 矩阵，相比前一种方法按列访问更加地友好

值得注意的时，C2需要提前初始化

for(int i=0; i<N; ++i){
   
		for(int

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zwconn

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

矩阵相乘最少计算次数问题

qq_36835991的博客

10-18

3877

矩阵相乘最少计算次数题目描述不同的计算顺序的乘法计算次数是不一样的，如 (AB)C(AB)C(AB)C 和 A(BC)A(BC)A(BC)的乘法计算次数分别为 p0p1p2+p0p2p3p_0p_1p _2 + p_0p_2p_3p0p1p2+p0p2p3 和 p1p2p3+p0p1p3p_1p_2 p_3 + p_0p_1p_3p1p2p3+p0p1p3。 nnn ...

存储体系实验-利用高速缓存(Cache)的局部性优化矩阵乘法

06-23

1.增进对cache工作原理以及计算机存储体系的理解 2.体验程序中访存模式变化是如何影响cahce效率进而影响程序性能的过程；

1 条评论您还未登录，请先登录后发表或查看评论

cache友好代码--以矩阵乘法为例

_计算机好苦

11-30

837

#include <iostream> #include <ctime> #define N 1024 using namespace std; int A[N][N]; int B[N][N]; int C2[N][N]; int C3[N][N]; int C1[N][N]; void Random(int(*a)[N], int n, int l, int r)//生成范围在l~r的随机数 { srand(time(0)); //设置时间种子 for (int i =

Cache友好型的url构造方法-林钰

冯立彬的博客

03-09

2185

写这篇文章的目的：在日常的工作中，经常有同事来询问有关缓存的问题，例如这样的url会不会被缓存、缓存期多长等；另一方面，也在生产环境的Cache服务器上发现很多不可缓存的引用，既降低了Cache效率，又增加了服务器负担。所以，希望借此文把一些经验总结向大家分享一下，设计页面url的同学们如果可能的话，就可以在以后的工作中尽量避免出现自己“攻击”自家的Cache的情况。好了话不多说 1. 缓存的意义 首先老生常谈一下缓存的意义，不外乎： 1.1. 减少对网

cache 在X86和ARM的性能比较 - 矩阵累加和分块矩阵乘法

weixin_46734801的博客

06-09

589

cache 在X86和ARM的性能比较 - 分块矩阵和矩阵累加

计算机系统基础学习笔记(4)-Cache友好代码

BeiXi's Blog

05-13

2773

程序的性能指执行程序所用的时间，显然程序的性能与程序执行时访问指令和数据所用的时间有很大关系，而指令和数据的访问时间与相应的 Cache 命中率、命中时间和和缺失损失有关。对于给定的计算机系统而言，命中时间和缺失损失是确定的。因此，指令和数据的访存时间主要由 Cache 命中率决定，而 Cache 的命中率则主要由程序的空间局部性和时间局部性决定。 Cache友好代码下面我们来介绍如何编写一段Cache友好代码，一段Cache友好代码往往运行速度较快。但我们需要注意以下两点：尽可能多的重复使用一个数据

java实验矩阵相乘

06-22

最后，矩阵运算的优化还包括使用缓存友好性（cache locality）的技巧，减少内存访问延迟，以及矩阵分解等高级技术，例如LU分解或QR分解，它们在特定情况下可以简化或加速矩阵运算。总结，"java实验矩阵相乘"涵盖了...

GEMM矩阵相乘与深度学习

weixin_43728590的博客

07-08

4776

GEMM矩阵相乘与深度学习1. GEMM矩阵相乘1.1 GEMM算法基础1.2 GEMM算法优化1.2.1 循环重排充分利用缓存1.2.2 平铺（Tiling）充分利用缓存1.2.3 展开（Unrolling）1.2.4 内存对齐1.2.5 向量化1.2.6 矩阵分块1.2.7 双缓冲2. GEMM与卷积计算2.1 计算卷积的方法2.2 Img2col2.2.1 CNN中张量的存储2.2.2 卷积运算转化为GEMM 1. GEMM矩阵相乘 1.1 GEMM算法基础 GEMM（General Matrix

cache-friendly:Java的缓存友好算法和数据结构

04-29

缓存友好 Java的缓存友好算法和数据结构偏二元搜寻 org.reific.binarysearch.biased.BiasedBinarySearch.binarySearch是Arrays.binarySearch的直接替代，它对于大尺寸2的幂的数组不会受到缓存行混叠的影响。 org.reific.binarysearch.biased.evolve.EvolveBinarySearchConstant （位于tst目录中）运行一种遗传算法来演化BiasedBinarySearch中使用的常数。

cache友好的代码

liuxs2009的专栏

09-02

259

计算机存储模型是寄存器-cache-内存-外存当一条指令访问外存上的数据会发生什么？内存访问失效异常失效异常处理将外存数据加载到内存 cache管理器将内存数据加载到cache 寄存器加载cache数据完成加载 ------- 以上过程如果频繁发生，则系统性能严重降低 os设计各种机制预防这种情况发生页缓存-预加载外存数据 cache-批量加载内存数据 ---------- 编程-cache友好编程，尽量避免长跳转的使用 ...

x264_scan8以及cache友好简要分析

Vincent_Chiang的博客

08-07

486

最近在面试，被大佬问到为什么x264能比JM快这么多，确实以前没有仔细研究过，记录一下学习代码的过程，如果有错误希望大家能帮我指出来。现有能搜到的许多经验贴代码版本与现在的版本不太一致，本文基于x264官方给出的最新版本的代码。下面从cache友好的方面来分析x264中的x264_scan8变量首先简述一下什么是cache友好程序的性能就是指执行程序所用的时间，显然程序的性能与程序执行时访问指令和数据所用的时间有很大关系，而指令和数据的访问时间与相应的 Cache 命中率、命中时间和和缺失损失有关。对

从缓存友好的角度分析数组和链表

Emmmwzh

09-13

824

上次被T4专家暴虐，希望我从Cache Friendly分析顺序遍历数组和链表，回来看了一下操作系统书大概了解了一点大佬说的Cache Friendly，说的不对或有补充的巨巨请留言哈。首先要知道高速缓存是怎么工作的，他是为了解决CPU计算和内存读取速度不匹配的问题，使用多级缓存，把经常使用的数据放在高速缓存，一级缓存的速度接近寄存器，但是价格昂贵容量小。数据以块为单位调入缓存，原理主要是局部...

Writing Cache-friendly Code

zhangyubingcatherine的专栏

12-02

1057

In the previous essay Exhibiting Good Locality in Your Programs, we presented two functions named sumarrayrows and sumarraycols respectively. And we knew that sumarrayrows had a stride-1 reference

Cache-Friendly Code: Solving Manycore's Need for Faster Data Access

xxxl的专栏

03-02

1922

http://www.drdobbs.com/parallel/cache-friendly-code-solving-manycores-ne/240012736?pgno=1 As the number of cores in multicore chips grows — Intel just announced the 50+ core Xeon Phi — ensuring tha

Cache friendly code

fujiaxiaoshao的博客

10-29

1394

缓存友好型代码，和减少磁盘IO类似，减少内存IO，使CPU尽量使用缓存中的数据。点击这里打开一篇讲Cache friendly code的文章

如何进行对Cache友好的编程

u011942916的专栏

06-10

293

先引入一个参考链接，博主对Catch的起源、运行原理介绍的很清楚，还是用Java的一些开发例子做了说明，对于大数据处理（例如图像处理）还是有很大帮助的，本文展示一些嵌入式的例子以及评估方式。 ...

矩阵乘法的优化