arm hisiv400 linux,一种基于ARMCotex-A系列平台的人脸检测实现方法与流程

技术特征:

1.一种基于ARM Cotex-A系列平台的人脸检测实现方法,其特征在于,包括如下步骤:

S1、在ARM Cotex-A系列处理器硬件环境下修改seetaface的FaceDetection中的源码,修改编译器类型为交叉编译器;

S2、在编译器设置中增加NEON的编译选项;

S3、替换FaceDetection中原有的SSE指令所需头文件为NEON所需头文件;

S4、针对FaceDetection的原代码中的使用SSE指令的部分修改为NEON指令,将使用SSE指令的函数修改为使用NEON的函数;

S5、在步骤S2中已增加NEON的编译选项支持下,重新编译程序,得到需要的动态链接库文件,从而编译得到在ARM Cotex-A系列处理器平台下支持NEON的FaceDetection程序。

2.根据权利要求1所述的基于ARM Cotex-A系列平台的人脸检测实现方法,其特征在于,步骤S1的具体操作为:

修改SET命令:

1)设置系统类型,选择使用linux:

SET(CMAKE_SYSTEM_NAME Linux)

2)设置交叉编译器路径:启用交叉编译器,并添加交叉编译器的路径:

SET(CMAKE_CXX_COMPILER"/opt/hisi-linux/x86-arm/arm-hisiv400-linux/bin/arm-hisiv400-linux-gnueabi-g++")。

3.根据权利要求1所述的基于ARM Cotex-A系列平台的人脸检测实现方法,其特征在于,步骤S2的具体操作为:

在cmakelist.txt中修改启用指令相关设置,启用NEON,在set命令中的编译器选项设置中修改(增加)NEON的编译选项:

-mfloat-abi=softfp-mfpu=neon。

4.根据权利要求1所述的基于ARM Cotex-A系列平台的人脸检测实现方法,其特征在于,步骤S3的具体操作为:

将原有使用SSE指令需要的头文件immintrin.h进行替换,换为NEON指令需要的函数实现及头文件,包括SseToNeon.h及NEON指令头文件arm_neon.h,其中包括工程中所有需要的NEON函数实现。

5.根据权利要求1所述的基于ARM Cotex-A系列平台的人脸检测实现方法,其特征在于,步骤S4的具体过程如下:

将原有的SSE指令转换为arm指令集下的neon指令;

先在代码中替换原有使用SSE的代码;代码中使用了SSE指令的函数有如下几个:

_mm_add_epi32(__m128i a,__m128i b)——①;

_mm_sub_epi32(__m128i a,__m128i b)——②;

_mm_mullo_epi32(__m128i a,__m128i b)——③;

_mm_mul_ps(__m128i a,__m128i b)——④;

_mm_cmpgt_ps(__m128a,__m128b)——⑤;

_mm_set_epi32(int i3,int i2,int i1,int i0)——⑥;

其中:

_mm_add_epi32()函数的功能为一次完成4个32位整形数的相加,并返回相加结果,函数①的替换函数为:vaddq_s32(a,b);vaddq_s32()的函数原型为int32x4_t vaddq_s32(int32x4_t__a,int32x4_t__b);为arm指令集下的向量计算,功能与_mm_add_epi32()相同;

_mm_sub_epi32()函数的功能为一次完成4个32位整形数的相减,并返回相加结果,函数②的替换函数为:vsubq_s32(a,b);vsubq_s32()的函数原型为int32x4_t vsubq_s32(int32x4_t__a,int32x4_t__b);为arm指令集下的向量计算,功能与_mm_sub_epi32()相同;

_mm_mullo_epi32()函数的功能为一次完成4个32位整形数的相乘,并返回相加结果;函数③的替换函数为vmulq_s32(a,b);vmulq_s32()的函数原型为int32x4_t vmulq_s32(int32x4_t__a,int32x4_t__b);为arm指令集下的向量计算,功能与_mm_mullo_epi32()相同;

_mm_mul_ps()函数的功能为一次完成4个32位整形数的相乘,并返回相加结果;对于函数④,返回在一个__m128的寄存器,具体函数实现如下:

201810372936_2.html

201810372936_2.html

_mm_cmpgt_ps()函数的功能为比较大于;函数⑤的替换函数为(__m128)vcleq_f32(a,b);vcleq_f32()的函数原型为float32x4_tvcleq_f32(float32x4_t__a,float32x4_t__b);为arm指令集下的向量计算,功能与_mm_cmple_ps()相同;

_mm_set_epi32()功能为设置4个有符号的32位整数值;函数⑥的替换函数为:vreinterpretq_m128i_s32(vld1q_s32(data));

其中返回值的类型定义在宏定义中,如下所示:

201810372936_2.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值