AVX指令集实现矩阵乘

最新推荐文章于 2024-06-15 23:10:14 发布

当格子衫爱上Helloworld

最新推荐文章于 2024-06-15 23:10:14 发布

阅读量3.7k

点赞数 6

分类专栏： intel扩展指令集文章标签： AVX指令集实现矩阵乘

本文链接：https://blog.csdn.net/weixin_42826139/article/details/86358449

版权

通过使用AVX指令集，文章探讨了在C语言中如何利用矩阵方阵的特性来提高矩阵乘法的效率。通过将矩阵B转置存储，可以实现连续访存，从而加快计算速度。尽管这会增加额外的空间和转存时间，但在编译器进行-O3优化后，总体仍能观察到加速效果。

摘要由CSDN通过智能技术生成

本节矩阵乘选择方阵
思想：c语言默认按行优先存储，矩阵a * b，a的行连续，可以连续访存，大大提高效率；但是b要按列取数，所以去b的列向量浪费时间，解决办法是：将b转置存储，这样b就可以按行进行连续访问。但是要牺牲空间去转存，还浪费了转存的计算时间。但实际仍然有加速效果。

另外还有很多算法可以提升效率。

#include <stdio.h>
#include <time.h>
#include <stdlib.h>
#include <x86intrin.h>

const int M = 1000;
//串行矩阵乘
void matrix(float **a, float **b, float **c){
   
	int i, j, k;
	for(i = 0; i < M; i++){
   
		for(k = 0; k < M; k++){
   
			for(j = 0; j < M; j = j+1){
   
				c[i][j] += a[i][k] * b[k][j];
				//c[i][j+1] += a[i][k] * b[k][j+1];
				//c[i][j+2] += a[i][k] * b[k][j+2];
				//c[i][j+3] += a[i][k] * b[k][j+3];	
			}
		}
	}
}
//两层循环展开
void matrix_loop_two(float **a, float **b, float **c){
   
	int i, j, k;
	for(i = 0; i < M; i++){
   
		for(k = 0; k < M; k++){
   
			for(j = 0; j < M; j = j+2){
   
				c[i][j] += a[i][k] * b[k][j];
				c[i][j+1] += a[i][k] * b[k][j+1];
				//c[i][j+2] += a[i][k] * b[k][j+2];
				//c[i][j+3] += a[i][k] * b[k][j+3];	
			}
		}
	}
}
//数组赋值
void value(float **a){
   
	int i, j, t = 1.0;
	for(i = 0; i < M; i++){
   
		for(j = 0; j < M; j++){
   
			a[i][j] = t;
		}
		t++;
	}
}
//打印数组
void print(float **a){
   
	int i, j;
	for(i = 0; i < M; i++){
   
		for(j = 0; j < M; j++){
   
			printf("%.2f	", a[i][j]);

最低0.47元/天解锁文章

当格子衫爱上Helloworld

关注

6
点赞
踩
24

收藏

觉得还不错? 一键收藏
2
评论
AVX指令集实现矩阵乘

本节矩阵乘选择方阵思想：c语言默认按行优先存储，矩阵a * b，a的行连续，可以连续访存，大大提高效率；但是b要按列取数，所以去b的列向量浪费时间，解决办法是：将b转置存储，这样b就可以按行进行连续访问。但是要牺牲空间去转存，还浪费了转存的计算时间。但实际仍然有加速效果。另外还有很多算法可以提升效率。#include &lt;stdio.h&gt;#include &lt;time.h&g...
复制链接

扫一扫

专栏目录