奇妙之旅:SIMD加速矩阵运算

奇妙之旅:SIMD加速矩阵运算

1.前言

  游戏会涉及到大量4x4的矩阵乘法运算,而乘法最简单直观的实现就是循环4×4×4次乘法,以及若干次加法,得到结果。
  在计算量较少时,cpu并不是很紧张。然而游戏通常每秒伴随着大量运算,此时,计算的效率就显得尤为重要。
  通过查阅文献,我发现了一种SIMD(Single Instruction Multiple Data,单指令多数据流)技术,可以同时操作多个数据,极大的提高了cpu的运算能力。

2.预备知识

原理:

  • 以加法指令为例,单指令单数据(SISD)的CPU对加法指令译码后,执行部件先访问内存,取得第一个操作数;之后再一次访问内存,取得第二个操作数;随后才能进行求和运算。而在SIMD型的CPU中,指令译码后几个执行部件同时访问内存,一次性获得所有操作数进行运算。这个特点使SIMD特别适合于多媒体应用等数据密集型运算。

下列是一些AVX,AVX2指令集上的函数原型:
手册地址:https://software.intel.com/sites/landingpage/IntrinsicsGuide/

  • __m256 _mm256_i32gather_ps (float const* base_addr, __m256i vindex, const int scale)

    • 概要
      __m256 _mm256_i32gather_ps (float const* base_addr, __m256i vindex, const int scale)
      #include <immintrin.h>
      Instruction: vgatherdps ymm, vm32x, ymm
      CPUID Flags: AVX2

    • 描述
      Gather single-precision (32-bit) floating-point elements from memory using 32-bit indices. 32-bit elements are loaded from addresses starting at base_addr and offset by each 32-bit element in vindex (each index is scaled by the factor in scale). Gathered elements are merged into dst. scale should be 1, 2, 4 or 8.

    • 伪代码

      FOR j := 0 to 7
      		i := j*32
      		m := j*32
      		addr := base_addr + SignExtend64(vindex[m+31:m]) * ZeroExtend64(scale) * 8
      		dst[i+31:i] := MEM[addr+31:addr]
      ENDFOR
      dst[MAX:256] := 0
      
    • 口胡 解释:用于将base_addr指向的内存中的数据按vindex中放置的索引序号并乘以scale表示的字节大小收集数据。

  • __m256 _mm256_dp_ps (__m256 a, __m256 b, const int imm8)

    • 概要
      __m256 _mm256_dp_ps (__m256 a, __m256 b, const int imm8)
      #include <immintrin.h>
      Instruction: vdpps ymm, ymm, ymm, imm
      CPUID Flags: AVX

    • 描述
      Conditionally multiply the packed single-precision (32-bit) floating-point elements in a and b using the high 4 bits in imm8, sum the four products, and conditionally store the sum in dst using the low 4 bits of imm8.

    • 伪代码

      DEFINE DP(a[127:0], b[127:0], imm8[7:0]) {
             
      	FOR j := 0 to 3
      		i := j*32
      		IF imm8[(4+j)%8]
      			temp[i+31:i] := a[i+31:i] * b[i+31:i]
      		ELSE
      			temp[i+31:i] := 0
      		FI
      	ENDFOR
      	
      	sum[31:0] := (temp[127:96] + temp[95:64]) + (temp[63:32] + temp[31:0])
      	
      	FOR j := 0 to 3
      		i := j*32
      		IF imm8[j%8]
      			tmpdst[i+31:i] := sum[31:0]
      		ELSE
      			tmpdst[i+31:i] := 0
      		FI
      	ENDFOR
      	RETURN tmpdst[127:0]
      }
      dst[127:0] := DP(a[127:0], b[127:0], imm8[7:0])
      dst[255:128] := DP(a[255:128], b[255:128], imm8[7:0])
      dst[MAX:256] := 0
      
    • 口胡 解释:将a,b的8个float值,分别相乘(如果imm8第4-7位为1),然后前4个求和,后4个求和,如果imm8的低0-3位为1就分配这个和值到目标区域。

好了,有了以上两个函数,我们就可以将4x4矩阵乘法的乘法次数降到8次了。
什么?你问怎么做?请往下看。

3.计算逻辑

  因为笔者的CPU只支持到AVX2,所以不能用512位的寄存器(哭~),这里就用256位寄存器做示范。
  考虑原来的乘法需要64次的float乘法,如果用256位寄存器(8个float)打包就可以降到 64 ÷ 8 = 8 64\div8 =8 64÷8=8次,太惊人了。

下面就是计算思路:
1. 记 X a b 为 矩 阵 X 的 第 a 行 和 第 b 行 构 成 的 一 个 8 个 f l o a t 值 的 寄 存 器 2. 记 X u v 为 矩 阵 X 的 第 u 列 和 第 v 列 构 成 的 一 个 8 个 f l o a t 值 的 寄 存 器 1.记X_{ab}为矩阵X的第a行和第b行构成的一个8个float值的寄存器\\ 2.记X^{uv}为矩阵X的第u列和第v列构成的一个8个float值的寄存器\\ 1.XabXab

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值