如何使用openmp、simd加速向量加

最新推荐文章于 2022-10-28 16:10:51 发布

qq_44901651

最新推荐文章于 2022-10-28 16:10:51 发布

阅读量1k

点赞数 3

文章标签： c++ c语言数据结构算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44901651/article/details/127571237

版权

正常的向量加如下：

void add(int8_t* a, int8_t* b, int8_t* c, int len)

{

for (int i = 0; i < len; i++)

{

c[i] = a[i]+b[i]

}

}

此时，我们可以使用neon这个库，去进行simd优化，但是neon只能在arm平台上运行，不能在x86平台上运行。

void add_simd(int8_t* a, int8_t* b, int8_t* c, int len)

{

//定义三个128bit寄存器；

int8x16_t a_, b_, c_;

//主体部分，以16循环

for (int i = 0; i < len/16*16; i+=16)

{

//128bit寄存器可以装16个8bit数，所以i+=16，一次性处理了16个数据；

a_ = vld1q_s8(a+i);

b_ = vld1q_s8(b+i);

//一次性对16个数进行加法

c_ = vaddq_s8(a_, b_);

//把16个8bit数一次性放回指针c里面；

vst1q_s8(c+i, c_);

}

//处理尾巴，剩下的不足16的单独处理

for (; i < len; i++)

{

c[i] = a[i] + b[i];

}

}

这时候就完成了simd级别的加速优化，主要是几个neon指令，vld1q_s8、vaddq_s8、vst1q_s8，具体可以在这里查看。

Intrinsics – Arm Developer

接下来我们进行并行化，主要是利用openmp库进行优化，具体如下：

void add_simd(int8_t* a, int8_t* b, int8_t* c, int len)

{

int8x16_t a_, b_, c_;

//openmp使用起来还是比较简单的，只需要加上这句话，他就可以对最近的一个for循环进行并行化。

#pragma omp parallel for

for (int i = 0; i < len/16*16; i+=16)

{

a_ = vld1q_s8(a+i);

b_ = vld1q_s8(b+i);

c_ = vaddq_s8(a_, b_);

vst1q_s8(c+i, c_);

}

for (; i < len; i++)

{

c[i] = a[i] + b[i];

}

}

具体详细的的应用可以参照这篇博客，是比较适合初学者阅读的。OpenMP用法大全（个人整理版）_ArrowYL的博客-CSDN博客_openmp

本只是简单的做了int8_t加法，其他数据类型类似，本展示一些其他数据类型代码如下：

void add_simd(float* a, float* b, float* c, int len)

{

float32x4_t a_, b_, c_;

#pragma omp parallel for

//这里特别要注意，此处以4为循环，因为128bit寄存器只能一次性处理4个32bit数，所以一次性只能处理4个数据。

for (int i = 0; i < len/4*4; i+=4)

{

a_ = vld1q_f32(a+i);

b_ = vld1q_f32(b+i);

c_ = vaddq_f32(a_, b_);

vst1q_f32(c+i, c_);

}

for (; i < len; i++)

{

c[i] = a[i] + b[i];

}

}

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
如何使用openmp、simd加速向量加

同时simd、openmp进行向量加法的加速
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。