neon优化opencv矩阵所有点求和

我在arm上通过neon的函数来优化矩阵所有点求和,参考的资料是《DEN0018A_neon_programmers_guide》
在这里插入图片描述
neon优化后的矩阵所有点求和为0.16ms,opencv使用sum函数的求和时间为0.8ms。下面是我的代码,具体的函数表示可以参考
https://gcc.gnu.org/onlinedocs/gcc-4.7.4/gcc/ARM-NEON-Intrinsics.html#ARM-NEON-Intrinsics

float matSum(cv::Mat A)
{
	float res;
	float32_t result;
	float32x2_t veca,vecb;
	float32x4_t vec=vdupq_n_f32(0);
	int w=A.cols;
	int h=A.rows;
	for(int j=0;j<h;j++)
	{
		int jdx=j*w;
		for(int i=0;i<w;i+=4)
		{
			int idx=jdx+i;
			float32_t* temp=(float32_t*) A.data+idx;
			float32x4_t tempi = vld1q_f32(temp);
			vec=vaddq_f32(vec,tempi);
		}
		veca=vget_low_f32(vec);
		vecb=vget_high_f32(vec);
		veca=vadd_f32(veca,vecb);
		result=vget_lane_f32(veca,0);
		result+=vget_lane_f32(veca,1);
	}
	res=result;
	return res;
}
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

dx0014

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值