NEON指令化并行技术简介和简单使用

SIMD

向量化SIMD是一种单指令多数据的并行执行方式。具体而言,向量化是指相同指令在硬件向量处理单元上对多个数据流进行操作。这些硬件向量处理单元也被称为SIMD单元。

在这里插入图片描述
补充:
CPU在单位时间内(同一时间)能一次处理的二进制数的位数称为字长。1字节是8位字长。

并行向量化

如果每个线程能够充分利用每个处理器核心的SIMD浮点寄存器进行数据并行,那么可进一步提高程序的性能。
以简单的加法运算为例在这里插入图片描述

NEON指令化并行技术

NEON技术是在ARM Cortex™上使用的,是一个实现ARMv7-A或ARMv7-R架构的系列处理器。
ARM NEON技术建立在SIMD的概念上,支持128位向量操作,也称为单指令多数据向量模式。

自动向量化:
在GCC中启用自动向量化使用命令行选项:
-ftree-vectorize
-mfpu=neon
-mcpu 来指定核心或架构。
在优化级编译-O3意味着-ftree向量化。如果没有指定-mcpu选项,那么GCC将使用其内置的默认内核。
手动向量化(主要为使用下图中的intrinsics内联函数方式)
在这里插入图片描述

计算实例

数据类型<基本类型>x<lane个数>x<向量个数>_t
指令名称<指令名>[后缀]_<数据基本类型简写>

C代码编写流程:1->定义neon向量 2->读取数据 3->处理数据 4->回写数据
(具体使用指令参考官方文档或者在官网查询)
向量点乘实现

void neonax(float A[][1000],float *x,int len)
{
	double t2,t1;
	double y[len];
	float32x4_t vec1,vec2,sum_vec = vdupq_n_f32(0);
	for(int i=0;i<len;i++)
	{
		for(int j=0;j<len;j+=4)
		{
			vec1 = vld1q_f32(A[i]+j);
			vec2 = vld1q_f32(x+j);
			sum_vec = vmlaq_f32(sum_vec,vec1,vec2);
		}
		y[i]=vgetq_lane_f32(sum_vec,0)+vgetq_lane_f32(sum_vec,1)+vgetq_lane_f32(sum_vec,2)+vgetq_lane_f32(sum_vec,3);
		sum_vec=vdupq_n_f32(0);
	}
}

向量加实现:

void add_neon1(float *c, float *a, float *b,int count)
{
	int i;
	float32x4_t in1,in2,out;
	for(i=0;i<count;i += 4)
	{
		in1 = vld1q_f32(a);
		a += 4;
		in2 = vld1q_f32(b);
		b += 4;
		out = vaddq_f32(in1, in2);
		vst1q_f32(c,out);
		c +=4;
	}	
}

持续补充…

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值