神经网络的推理中会涉及大量的向量或矩阵运算,在 PC 端我们通常会调用一些如 OpenBLAS、IntelMKL 等性能较好的向量加速库,在 ARM 芯片上也有自家的 CMSIS 加速库。而这些库的底层除了利用处理器的并行化能力,还会调用指令集优化代码。
这里我们介绍一种常用的优化方式 SIMD(单指令多数据流)指令集。
单指令流多数据流(英語:Single Instruction Multiple Data,縮寫:SIMD)是一种采用一个控制器来控制多个处理器,同时对一组数据(又称“数据向量”)中的每一个分别执行相同的操作从而实现空间上的并行性的技术。
该指令集能一次性获得所有操作数进行运算,非常适合于多媒体应用等数据密集型运算。在如今深度学习如此汹涌澎湃的时代,SIMD 优化的应用几乎无处不在,上至云端下至移动端。掌握这部分技巧对于神经网络的落地会有不少益处。
我会以两个向量相加为例,一步步引入 SIMD 的计算,同时我也会将相关的官方文档整理在其中。本文可以作为新手快速入门教程。
C
下面是一个基础版本,当我们在优化函数时,一个正确的参考函数尤为重要(此函数输出可作为做 GTest 测试单元的参考输出),而最简单的实现方式就是一个好的开始。
void tpd_vsadd(const float* x, const float* y, float* z, int n) {
int i = 0;
for (i = 0; i < n; i++) {
z[i] = x