AVX2指令集浮点乘法性能分析
一、AVX2指令集介绍
AVX2是SIMD(单指令多数据流)指令集,支持在一个指令周期内同时对256位内存进行操作。包含乘法,加法,位运算等功能。下附Intel官网使用文档。
Intel® Intrinsics Guide
我们本次要用到的指令有 **__m256 _mm256_mul_ps(__m256 a, __m256 b), __m256d_mm256_mul_pd(__m256d a, __m256d b)**等,(p代表精度precision,s代表single,d代表double)
它们可以一次取256位的内存,并按32/64位一个浮点进行乘法运算。下附官网描述。
Synopsis
__m256d _mm256_mul_pd (__m256d a, __m256d b)
#include <immintrin.h>
Instruction: vmulpd ymm, ymm, ymm
CPUID Flags: AVX
Description
Multiply packed double-precision (64-bit) floating-point elements in a and b, and store the results in dst.
Operation
FOR j := 0 to 3
i := j*64
dst[i+63:i] := a[i+63:i] * b[i+63:i]
ENDFOR
dst[MAX:256] := 0
Performance
Architecture | Latency | Throughput (CPI) |
---|---|---|
Icelake | 4 | 0.5 |
Skylake | 4 | 0.5 |
Broadwell | 3 | 0.5 |
Haswell | 5 | 0.5 |
Ivy Bridge | 5 | 1 |
二、代码实现
0. 数据生成
为了比较结果,我们用1+1e-8
填充。这里利用模版兼容不同数据类型。由于AVX2指令集一次要操作多个数据,为了防止访存越界,我们将大小扩展到256的整数倍位比特,也就是32字节的整数倍。
uint64_t lowbit(uint64_t x)
{
return x & (-x);
}
uint64_t extTo2Power(uint64_t n, int i)//arraysize datasize
{
while(lowbit(n) < i)
n += lowbit(n);
return n;
}
template <typename T>
T* getArray(uint64_t size)
{
uint64_t ExSize = extTo2Power(size, 32/sizeof(T));
T* arr = new T[ExSize];
for (uint64_t i = 0; i < size; i++)
arr[i] = 1.0+1e-8;
for (uint64_t i = size; i < ExSize; i++)
arr[i] = 1.0;
return arr;
}