float gpu 加速_工程实现 |加速神经网络推理之 SIMD 向量化运算

本文介绍了SIMD(单指令多数据流)指令集在加速神经网络推理中的作用,通过C、SSE和NEON三个部分展示如何进行优化。通过向量相加的例子,阐述了SIMD如何提升运算效率,并提到了GPU的并行运算原理。还提及了Intel Intrinsics Guide和ARM NEON Intrinsics Reference作为参考资料,强调理解官方文档和阅读优秀开源代码的重要性。
摘要由CSDN通过智能技术生成

神经网络的推理中会涉及大量的向量或矩阵运算,在 PC 端我们通常会调用一些如 OpenBLAS、IntelMKL 等性能较好的向量加速库,在 ARM 芯片上也有自家的 CMSIS 加速库。而这些库的底层除了利用处理器的并行化能力,还会调用指令集优化代码。

这里我们介绍一种常用的优化方式 SIMD(单指令多数据流)指令集。

单指令流多数据流(英語:Single Instruction Multiple Data,縮寫:SIMD)是一种采用一个控制器来控制多个处理器,同时对一组数据(又称“数据向量”)中的每一个分别执行相同的操作从而实现空间上的并行性的技术。

该指令集能一次性获得所有操作数进行运算,非常适合于多媒体应用等数据密集型运算。在如今深度学习如此汹涌澎湃的时代,SIMD 优化的应用几乎无处不在,上至云端下至移动端。掌握这部分技巧对于神经网络的落地会有不少益处。

我会以两个向量相加为例,一步步引入 SIMD 的计算,同时我也会将相关的官方文档整理在其中。本文可以作为新手快速入门教程。

C

下面是一个基础版本,当我们在优化函数时,一个正确的参考函数尤为重要(此函数输出可作为做 GTest 测试单元的参考输出),而最简单的实现方式就是一个好的开始。

void tpd_vsadd(const float* x, const float* y, float* z, int n) {
    
  int i = 0;
  for (i = 0; i < n; i++) {
    
    z[i] = x
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值