NEON指令集优化从入门到上手业务

1、 ARM-NEON简介

ARM-NEON全称单指令多数据协处理器(Single instruction, multiple data)。其核心是有两类存储数据的寄存器组成

  • D-Register: 32x 64-bit

  • Q-Register: 16x 128-bit
    利用这些存储数据的寄存器可实现简单的逻辑运算与算术运算,如加减乘除、移位、转置等。neon优化实现语言有如下两种,本博客仅介绍第一种方法,不涉及汇编语言。
    1、NEON intrinsics(C语言,类似函数调用)

    • 移植简单、易维护
    • 效率相对较低
    • 不必考虑超出寄存器使用数量

    2、 汇编语言

    • 移植难度大
    • 效率高
    • 寄存器必须人工合理分配

2、数据类型

  • ARM-NEON数据类型分两种,向量和向量数组,命名规则如下:
   <type><size>x<number_of_lanes>_t
  • 示例:
数据类型含义
uint8x8_t包含8个uint8的向量类型
uint8x8x2_t包含2个向量的数组类型,每个向量包含8个uint8
  • neon官方编程指南中罗列了可支持的向量类型:
64-bit type (D-register)128-bit type (Q-register)
int8x8_tint8x16_t
int16x4_tint16x8_t
int32x2_tint32x4_t
int64x1_tint64x2_t
uint8x8_tuint8x16_t
uint16x4_tuint16x8_t
uint32x2_tuint32x4_t
uint64x1_tuint64x2_t
float16x4_tfloat16x8_t
float32x2_tfloat32x4_t
poly8x8_tpoly8x16_t
poly16x4_tpoly16x8_t

3、NEON INTRINSICSS指令函数

  • 函数名定义:
<opname><flags>_<type>
  • 示例
指令名含义
uint8x8_t vadd_u8(uint8x8_t a, uint8x8_t b)两个向量相乘
uint8x16_t vaddq_u8(uint8x16_t a, uint8x16_t b)128位的Q寄存器向量加法
  • C代码编程流程图
    step1: 定义Neon向量
    step2: 读取数据
    step3: 处理数据
    step4: 回写数据

4、数据加载函数

  • 函数定义
函数定义含义
Result_t vldN_type(Scalar_t* N,…)利用64位的D寄存器加载数组长度为N的数据
Result_t vldNq_type(Scalar_t* N, …)利用128位的Q寄存器加载数组长度为N的数据
  • 适用于vldN_type数据类型
Result_ttypeScalar_t
int8x8_ts8int8_t
int16x4_ts16int16_t
int32x2_ts32int32_t
int64x1_ts64int64_t
uint8x8_tu8uint8_t
uint16x4_tu16uint16_t
uint32x2_tu32uint32_t
uint64x1_tu64uint64_t
float16x4_tf16float16_t
float32x2_tf32float32_t
poly8x8_tp8poly8_t
poly16x4_tp16poly16_t
  • 适用于vldNq_type数据类型
Result_ttypeScalar_t
int8x16_ts8int8_t
int16x8_ts16int16_t
int32x4_ts32int32_t
int64x2_ts64int64_t
uint8x16_tu8uint8_t
uint16x8_tu16uint16_t
uint32x4_tu32uint32_t
uint64x2_tu64uint64_t
float16x8_tf16float16_t
float32x4_tf32float32_t
poly8x16_tp8poly8_t
poly16x8_tp16poly16_t

5、数据回写函数

  • 函数定义
函数定义含义
void vstN_type(Scalar_t* N, Vector_t M)以步长为N将D寄存器数据存入M中
void vstNq_type(Scalar_t* N, Vector_t M)以步长N将Q寄存器中数据存入M中

6、代码实战

  • 将RGBA通道转换为BGR通道数据
void GetBGRImageFromGPUNeon(uint8_t * renderPtr, cv::Mat &img) {
  if(!img.data)
    img.creat(frameBufferHeight, frameBufferWidth, CV_8UC3);
  uint8_t *data = static_cast<uint8_t*>(img.data);
  const int stridePixels = 16;
  const int srcStrideByte = stridePixel * channelNum;
  const int destStrideByte = stridePixels * 3;
  
  int remainderPixels = pixelNum % stridePixels;
  int dividePixels = pixelNum_ - remainderPixels;
  
  uint8x16x4 rgba;
  uint8x16x3 bgr;
  for(int i = 0; i < dividePixels; i += stridePixels) {
    rgba = vld4q_u8(renderPtr);
    bgr.val[0] = rgba.val[2];
    bgr.val[1] = rgba.val[1];
    bgr.val[2] = rgba.val[0];
    vst3q_u8(data, bgr);
    data += destStrideByte;
    renderPtr += srcStrideByte;
  }
  // handling remainder lenght
  for(int i = dividePixels; i < pixelNum_; ++i) {
    *data++ = *(renderPtr + 2);
    *data++ = *(renderPtr + 2);
    *data++ = *(renderPtr + 2);
    render += 4;
  }
}
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值