float gpu 加速_工程实现｜加速神经网络推理之 SIMD 向量化运算-CSDN博客

本文链接：https://blog.csdn.net/weixin_32187075/article/details/112374787

本文介绍了SIMD（单指令多数据流）指令集在加速神经网络推理中的作用，通过C、SSE和NEON三个部分展示如何进行优化。通过向量相加的例子，阐述了SIMD如何提升运算效率，并提到了GPU的并行运算原理。还提及了Intel Intrinsics Guide和ARM NEON Intrinsics Reference作为参考资料，强调理解官方文档和阅读优秀开源代码的重要性。

摘要由CSDN通过智能技术生成

神经网络的推理中会涉及大量的向量或矩阵运算，在 PC 端我们通常会调用一些如 OpenBLAS、IntelMKL 等性能较好的向量加速库，在 ARM 芯片上也有自家的 CMSIS 加速库。而这些库的底层除了利用处理器的并行化能力，还会调用指令集优化代码。

这里我们介绍一种常用的优化方式 SIMD（单指令多数据流）指令集。

单指令流多数据流（英語：Single Instruction Multiple Data，縮寫：SIMD）是一种采用一个控制器来控制多个处理器，同时对一组数据（又称“数据向量”）中的每一个分别执行相同的操作从而实现空间上的并行性的技术。

该指令集能一次性获得所有操作数进行运算，非常适合于多媒体应用等数据密集型运算。在如今深度学习如此汹涌澎湃的时代，SIMD 优化的应用几乎无处不在，上至云端下至移动端。掌握这部分技巧对于神经网络的落地会有不少益处。

我会以两个向量相加为例，一步步引入 SIMD 的计算，同时我也会将相关的官方文档整理在其中。本文可以作为新手快速入门教程。

C

下面是一个基础版本，当我们在优化函数时，一个正确的参考函数尤为重要（此函数输出可作为做 GTest 测试单元的参考输出），而最简单的实现方式就是一个好的开始。

void tpd_vsadd(const float* x, const float* y, float* z, int n) {
    
  int i = 0;
  for (i = 0; i < n; i++) {
    
    z[i] = x

float gpu 加速_工程实现 ｜加速神经网络推理之 SIMD 向量化运算

C

float gpu 加速_工程实现｜加速神经网络推理之 SIMD 向量化运算