AVX2指令集浮点乘法性能分析

AVX2浮点乘法性能优化：单双精度对比与速度提升

最新推荐文章于 2025-08-21 14:05:42 发布

原创

最新推荐文章于 2025-08-21 14:05:42 发布 · 2.4w 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#性能优化 #算法

本文探讨了AVX2指令集在单精度和双精度浮点乘法中的性能优势，通过代码实现和性能测试，揭示了AVX2在处理浮点运算时的效率提升，以及为何整形运算优化效果不明显的原因。

AVX2指令集浮点乘法性能分析

一、AVX2指令集介绍
二、代码实现
三、性能测试
四、总结
- 个人猜测原因：

一、AVX2指令集介绍

AVX2是SIMD(单指令多数据流)指令集，支持在一个指令周期内同时对256位内存进行操作。包含乘法，加法，位运算等功能。下附Intel官网使用文档。
Intel® Intrinsics Guide

我们本次要用到的指令有 **__m256 _mm256_mul_ps(__m256 a, __m256 b), __m256d_mm256_mul_pd(__m256d a, __m256d b)**等，（p代表精度precision，s代表single，d代表double）

它们可以一次取256位的内存，并按32/64位一个浮点进行乘法运算。下附官网描述。

Synopsis

__m256d _mm256_mul_pd (__m256d a, __m256d b)

#include <immintrin.h>

Instruction: vmulpd ymm, ymm, ymm

CPUID Flags: AVX

Description

Multiply packed double-precision (64-bit) floating-point elements in a and b, and store the results in dst.

Operation

FOR j := 0 to 3
	i := j*64
	dst[i+63:i] := a[i+63:i] * b[i+63:i]
ENDFOR
dst[MAX:256] := 0

Performance

Architecture	Latency	Throughput (CPI)
Icelake	4	0.5
Skylake	4	0.5
Broadwell	3	0.5
Haswell	5	0.5
Ivy Bridge	5	1

二、代码实现

0. 数据生成

为了比较结果，我们用1+1e-8填充。这里利用模版兼容不同数据类型。由于AVX2指令集一次要操作多个数据，为了防止访存越界，我们将大小扩展到256的整数倍位比特，也就是32字节的整数倍。

uint64_t lowbit(uint64_t x)
{
   
   
    return x & (-x);
}

uint64_t extTo2Power(uint64_t n, int i)//arraysize datasize
{
   
   
    while(lowbit(n) < i)
        n += lowbit(n);
    return n;
}

template <typename T>
T* getArray(uint64_t size)
{
   
   
    uint64_t ExSize = extTo2Power(size, 32/sizeof(T));
    T* arr = new T[ExSize];
    for (uint64_t i = 0; i < size; i++)
        arr[i] = 1.0+1e-8;
    for (uint64_t i = size; i < ExSize; i++)
        arr[i] = 1.0;
    return arr;
}