关于指令集AVX AVX2学习笔记

最新推荐文章于 2025-04-10 09:56:26 发布

worldpeace_of_hby

最新推荐文章于 2025-04-10 09:56:26 发布

阅读量8.5k

点赞数 22

文章标签：性能优化云计算

本文链接：https://blog.csdn.net/m0_55063425/article/details/128603137

版权

文章介绍了X86架构下的SSE/AVX指令集，这些指令用于增强CPU的向量处理能力，通过向量化运算提高硬件的并行计算性能，尤其在图像和视频处理方面。文章提供了一个简单的使用示例，展示如何利用_mm256_loadu_si256和_mm256_add_epi64等函数进行向量加法操作，以避免循环，从而提升效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

X86 SSE/AVX 指令集

指令集介绍：

SSE/AVX 指令集是Intel公司设计的、对X86体系的SIMD的拓展指令集，基于向量化技术，提高硬件的并行计算能力，增强X86多核向量处理器的图像处理和视频处理能力。

查看电脑支持的指令集

Lscpu

向量化运算

向量化操作和非向量化操作对比：

理论在向量化后的优化可以达到 8倍的优化比

1、操作对象：向量化是对cpu寄存器的充分利用，多线程是对线程和cpu多核心的并行优化

2、向量化和多线程是可以同时使用，在优化比上是一个相乘的关系。

3、向量化和多线程并行都可以达到并行优化效果

4、向量化和多线程并行都可以由编译器自主完成

函数命名

Intel ICC和开源的GCC编译器支持SSE/AVX指令的C语言接口（intrinsic，内置函数），在intrinsic.h头文件中（头文件可能有所不同）

函数命名：

第一部分：mm/mm256。mm表示SSE指令集，操作长度为64位或128位。mm256表示使用AVX指令集、操作位位256位。

第二部分：操作函数名称——如 add、load、mul....

第三部分：操作对象及数据类型— ps表示操作向量数据为单精度、

pd表示操作的向量数据为双精度等。

函数命名举例（AVX2）:

_mm256_add_ps:使用AVX 256位寄存器，进行加法操作，操作的向量数据位单精度。

_mm256_mul_pd:使用AVX 256位寄存器，进行乘法操作，操作的向量数据类型为双精度。

1、用__m256定义三个寄存器变量

2、使用load对齐加载数据到寄存器

3、使用add函数来执行加操作

4、添加头文件immintrin.h

5、编译时添加-mavx -mavx2(注意对应) 进行编译

简单的指令集实例

#include<bits/stdc++.h>

#include<immintrin.h>

#include<omp.h>

using namespace std;

typedef chrono::high_resolution_clock Clock;

void out(int D[])

{

  for(int i=0;i<8;i++)

  {

    cout<<D[i]<<" ";

  }

  cout<<endl;

}

int main()

{

  __m256i x;

  __m256i y;

  __m256i z;

 

  int A[8]={1,2,3,4,5,6,7,8};

  int B[8]={1,2,3,4,5,6,7,8};

  int ans[8];

  

  x = _mm256_loadu_si256((__m256i*)&A[0]);

  y = _mm256_loadu_si256((__m256i*)&B[0]);

  z = _mm256_add_epi64(x,y); 

_mm256_storeu_si256((__m256i*)&ans[0],z);

  out(A);

  out(B);

  out(ans);

  return 0;

}

编译指令：g++ avx-add.cpp -o avx-add -mavx -mavx2 && ./avx-add

运行结果：