奇妙之旅：SIMD加速矩阵运算

最新推荐文章于 2024-07-22 08:00:18 发布

_luna

最新推荐文章于 2024-07-22 08:00:18 发布

阅读量5.3k

点赞数 7

分类专栏： c++ simd 加速文章标签： simd 并行计算 cpu

本文链接：https://blog.csdn.net/u011760195/article/details/104986920

版权

奇妙之旅：SIMD加速矩阵运算

1.前言
2.预备知识
3.计算逻辑
4.代码实战

1.前言

游戏会涉及到大量4x4的矩阵乘法运算，而乘法最简单直观的实现就是循环4×4×4次乘法，以及若干次加法，得到结果。
在计算量较少时，cpu并不是很紧张。然而游戏通常每秒伴随着大量运算，此时，计算的效率就显得尤为重要。
通过查阅文献，我发现了一种SIMD（Single Instruction Multiple Data，单指令多数据流）技术，可以同时操作多个数据，极大的提高了cpu的运算能力。

2.预备知识

原理：

以加法指令为例，单指令单数据（SISD）的CPU对加法指令译码后，执行部件先访问内存，取得第一个操作数；之后再一次访问内存，取得第二个操作数；随后才能进行求和运算。而在SIMD型的CPU中，指令译码后几个执行部件同时访问内存，一次性获得所有操作数进行运算。这个特点使SIMD特别适合于多媒体应用等数据密集型运算。

下列是一些AVX，AVX2指令集上的函数原型:
手册地址:https://software.intel.com/sites/landingpage/IntrinsicsGuide/

__m256 _mm256_i32gather_ps (float const* base_addr, __m256i vindex, const int scale)
- 概要
  __m256 _mm256_i32gather_ps (float const* base_addr, __m256i vindex, const int scale)
  #include <immintrin.h>
  Instruction: vgatherdps ymm, vm32x, ymm
  CPUID Flags: AVX2
- 描述
  Gather single-precision (32-bit) floating-point elements from memory using 32-bit indices. 32-bit elements are loaded from addresses starting at base_addr and offset by each 32-bit element in vindex (each index is scaled by the factor in scale). Gathered elements are merged into dst. scale should be 1, 2, 4 or 8.
- 伪代码
```
FOR j := 0 to 7
		i := j*32
		m := j*32
		addr := base_addr + SignExtend64(vindex[m+31:m]) * ZeroExtend64(scale) * 8
		dst[i+31:i] := MEM[addr+31:addr]
ENDFOR
dst[MAX:256] := 0
```
- 口胡解释：用于将base_addr指向的内存中的数据按vindex中放置的索引序号并乘以scale表示的字节大小收集数据。

__m256 _mm256_dp_ps (__m256 a, __m256 b, const int imm8)

概要
__m256 _mm256_dp_ps (__m256 a, __m256 b, const int imm8)
#include <immintrin.h>
Instruction: vdpps ymm, ymm, ymm, imm
CPUID Flags: AVX
描述
Conditionally multiply the packed single-precision (32-bit) floating-point elements in a and b using the high 4 bits in imm8, sum the four products, and conditionally store the sum in dst using the low 4 bits of imm8.

伪代码

DEFINE DP(a[127:0], b[127:0], imm8[7:0]) {
       
	FOR j := 0 to 3
		i := j*32
		IF imm8[(4+j)%8]
			temp[i+31:i] := a[i+31:i] * b[i+31:i]
		ELSE
			temp[i+31:i] := 0
		FI
	ENDFOR
	
	sum[31:0] := (temp[127:96] + temp[95:64]) + (temp[63:32] + temp[31:0])
	
	FOR j := 0 to 3
		i := j*32
		IF imm8[j%8]
			tmpdst[i+31:i] := sum[31:0]
		ELSE
			tmpdst[i+31:i] := 0
		FI
	ENDFOR
	RETURN tmpdst[127:0]
}
dst[127:0] := DP(a[127:0], b[127:0], imm8[7:0])
dst[255:128] := DP(a[255:128], b[255:128], imm8[7:0])
dst[MAX:256] := 0