AVX指令集实现矩阵乘

通过使用AVX指令集,文章探讨了在C语言中如何利用矩阵方阵的特性来提高矩阵乘法的效率。通过将矩阵B转置存储,可以实现连续访存,从而加快计算速度。尽管这会增加额外的空间和转存时间,但在编译器进行-O3优化后,总体仍能观察到加速效果。
摘要由CSDN通过智能技术生成

本节矩阵乘选择方阵
思想:c语言默认按行优先存储,矩阵a * b,a的行连续,可以连续访存,大大提高效率;但是b要按列取数,所以去b的列向量浪费时间,解决办法是:将b转置存储,这样b就可以按行进行连续访问。但是要牺牲空间去转存,还浪费了转存的计算时间。但实际仍然有加速效果。

另外还有很多算法可以提升效率。

#include <stdio.h>
#include <time.h>
#include <stdlib.h>
#include <x86intrin.h>

const int M = 1000;
//串行矩阵乘
void matrix(float **a, float **b, float **c){
   
	int i, j, k;
	for(i = 0; i < M; i++){
   
		for(k = 0; k < M; k++){
   
			for(j = 0; j < M; j = j+1){
   
				c[i][j] += a[i][k] * b[k][j];
				//c[i][j+1] += a[i][k] * b[k][j+1];
				//c[i][j+2] += a[i][k] * b[k][j+2];
				//c[i][j+3] += a[i][k] * b[k][j+3];	
			}
		}
	}
}
//两层循环展开
void matrix_loop_two(float **a, float **b, float **c){
   
	int i, j, k;
	for(i = 0; i < M; i++){
   
		for(k = 0; k < M; k++){
   
			for(j = 0; j < M; j = j+2){
   
				c[i][j] += a[i][k] * b[k][j];
				c[i][j+1] += a[i][k] * b[k][j+1];
				//c[i][j+2] += a[i][k] * b[k][j+2];
				//c[i][j+3] += a[i][k] * b[k][j+3];	
			}
		}
	}
}
//数组赋值
void value(float **a){
   
	int i, j, t = 1.0;
	for(i = 0; i < M; i++){
   
		for(j = 0; j < M; j++){
   
			a[i][j] = t;
		}
		t++;
	}
}
//打印数组
void print(float **a){
   
	int i, j;
	for(i = 0; i < M; i++){
   
		for(j = 0; j < M; j++){
   
			printf("%.2f	", a[i][j]);
		
  • 6
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值