在开发算法程序时经常遇到需要优化程序性能的需求,在x86芯片平台上提供了一些专用指令可以用来对程序进行优化。假如计算时两个数组相同位置元素的加法计算时传统的C语言指令在循环中完成依次计算,C语言代码如下图所示:
void sum(double *aSum, double *aLeft, double *aRight, int num)
{
int i;
for (i = 0; i < num; i++)
{
aSum[i] = aLeft[i] + aRight[i];
}
}
AVX指令原理简介
使用AVX指令则可以一次性处理4个double类型的数组元素,相当于原先需要循环四次所做的操作只需要一次指令周期就可以同时完成四个元素的相加。AVX指令寄存器长度有256bit、512bit、128bit等,可以按照地址顺序一次加载如此长度的数据进行一个指令周期的计算。
下面以实例说明一个最简单的AVX指令使用方法作为参考类似于抛砖引玉的作用,想继续深入学习的可以查找Intel官方文档资料进行学习。
#include <stdio.h>
#include <immintrin.h>
/* 向量长度 */
#define VEC_LEN (8)
int main()
{
int i;
float a[VEC_LEN]; /* 存储向量数值 */
float b[VEC_LEN];
float c[VEC_LEN]; /* 存储向量计算的结果 */
float d[VEC_LEN];
float *pOut;
__m256 msseD;
__m256 msseC;
__m256 msseB;
__m256 msseA;
__m256 *pmsseC;
__m256 *pmsseB;
__m256 *pmsseA;
/* a、b向量初始化 */
for (i = 0; i < VEC_LEN; i++)
{
a[i] = i + 1;
b[i] = VEC_LEN - i + 1;
}
/* 打印出a、b向量的数值 */
for (i = 0; i < VEC_LEN; i++)
{
printf("a[%d]: %f\n", i, a[i]);
}
for (i = 0; i < VEC_LEN; i++)
{
printf("b[%d]: %f\n", i, b[i]);
}
msseA = _mm256_loadu_ps(&a[0]); /* 装载数据(不对齐的方式装载数据) */
msseB = _mm256_loadu_ps(&b[0]);
msseC = _mm256_add_ps(msseA, msseB); /* a、b向量相加 */
msseD = _mm256_mul_ps(msseA, msseB); /* a、b向量相乘 */
/* 将结果重新存储到结果地址单元中 */
_mm256_storeu_ps(c, msseC);
_mm256_storeu_ps(d, msseD);
pOut = (float *)(&msseC); /* 提供一种向量到标量的数据读取方式 */
printf("===================================计算结果===================================\n");
/* 打印出a、b数组数值 */
for (i = 0; i < VEC_LEN; i++)
{
printf("c[%d]: %f\n", i, *(c + i));
}
for (i = 0; i < VEC_LEN; i++)
{
printf("d[%d]: %3f, pOut[%d]: %3f\n", i, *(d + i), i, pOut[i]);
}
return 0;
}
系统类型:Linux
芯片:x86芯片
编译命令:gcc -g test.c -fopenmp -march=native -o demo
运行结果如下:
总结:avx指令挺丰富要熟悉每一条指令的具体应用只要到Intel官网上查找相关avx、sse指令即可找到相应的详细说明。
由于技术水平有限,文章可能存在一定的问题欢迎及时指出问题所在,多多交流提高技术水平!