x86体系SSE介绍

最新推荐文章于 2025-02-06 11:23:01 发布

风生竹韵

最新推荐文章于 2025-02-06 11:23:01 发布

阅读量2k

点赞数

文章标签： c++ 并行编程 x86 SSE

最近在看一些并行编程的trick，做一下笔记

——《并行编程方法与优化实践》

Intel ICC和开源的GCC编译器支持的SSE/AVX指令的C接口（intrinsic，内置函数）声明在intrinsic.h头文件中。其数据类型命名主要有__m128/__m256、__m128d/__m256i，默认为单精度（d表示双精度，i表示整型）。其函数的命名可大致分为3个使用“_”隔开的部分，3个部分的含义如下。

·第一个部分为_mm或_mm256。_mm表示其为SSE指令，操作的向量长度为64位或128位。_mm256表示AVX指令，操作的向量长度为256位。本节只介绍128位的SSE指令和256位的AVX指令。

·第二个部分为操作函数名称，如_add、_load、mul等，一些函数操作会增加修饰符，如loadu表示不对齐到向量长度的存储器访问。

·第三个部分为操作的对象名及数据类型，_ps表示操作向量中所有的单精度数据；_pd表示操作向量中所有的双精度数据；_pixx表示操作向量中所有的xx位的有符号整型数据，向量寄存器长度为64位；_epixx表示操作向量中所有的xx位的有符号整型数据，向量寄存器长度为128位；_epuxx表示操作向量中所有的xx位的无符号整型数据，向量寄存器长度为128位；_ss表示只操作向量中第一个单精度数据；si128表示操作向量寄存器中的第一个128位有符号整型。

3个部分组合起来，就形成了一条向量函数，如_mm256_add_ps表示使用256位向量寄存器执行单精度浮点加法运算。

由于使用指令级数据并行，因此其粒度非常小，需要使用细粒度的并行算法设计。SSE/AVX指令集对分支的处理能力非常差，而从向量中抽取某些元素数据的代价又非常大，因此不适合含有复杂逻辑的运算。

这一部分有意思，很好地介绍了SSE接口的命名方法，理解了之后，对于SSE指令的使用就能够很清楚了。