项目记录：SSE/NEON快速指令集优化像素拷贝

最新推荐文章于 2024-05-24 11:10:49 发布

桑来93

最新推荐文章于 2024-05-24 11:10:49 发布

阅读量2k

点赞数 4

分类专栏： [研究生项目记录]

本文链接：https://blog.csdn.net/qjh5606/article/details/80379014

版权

[研究生项目记录] 专栏收录该内容

39 篇文章 5 订阅

订阅专栏

SSE/NEON`快速指令集优化像素拷贝

项目需求:

360全景图划分成 TILE.
高纬度按 4:1 下采样. 中纬度按 2:1 下采样. 低纬度 1:1
渲染时,高纬度按 1:4 还原. 中纬度按 1:2 还原.

做法:

SIMD,single instruction multiple data,单指令流多数据流,一次运算指令可以执行多个数据流.

使用指令集进行并行优化.

SSE指令集

SSE本质上类似于一个向量处理器,包括了4个主要部分

单精确度浮点数运算指令
整数运算指令(为MMX的延伸，并与MMX使用同样的暂存器)
Cache控制指令
状态控制指令

Intrinsic使用的数据类型和其寄存器是相对应

64位 MMX指令集使用
128位 SSE指令集使用
256位 AVX指令集使用

Intrinsic 函数的命名:

Intrinsic函数的命名也是有一定的规律的，一个Intrinsic通常由3部分构成，这个三个部分的具体含义如下：

第一部分为前缀_mm，表示是SSE指令集对应的Intrinsic函数。_mm256或_mm512是AVX,AVX-512指令集的Intrinsic函数前缀，这里只讨论SSE故略去不作说明。
第二部分为对应的指令的操作，如_add，_mul，_load等，有些操作可能会有修饰符，如loadu将未16位对齐的操作数加载到寄存器中。
第三部分为操作的对象名及数据类型，_ps packed操作所有的单精度浮点数；_pd packed操作所有的双精度浮点数；_pixx（xx为长度，可以是8，16，32，64）packed操作所有的xx位有符号整数，使用的寄存器长度为64位；_epixx（xx为长度）packed操作所有的xx位的有符号整数，使用的寄存器长度为128位；_epuxx packed操作所有的xx位的无符号整数；_ss操作第一个单精度浮点数。…

SSE浮点运算分为两大类, packed 和 scalar

packed指令是一次对XMM暂存器中的四个浮点数(DATA0~DATA3)均进行计算，而scalar只对XMM暂存器中的DATA0进行计算，见下图。

NEON指令集

寄存器

ARMV7架构包含：

16个通用寄存器（32bit），R0-R15
16个NEON寄存器（128bit），Q0-Q15（同时也可以被视为32个64bit的寄存器，D0-D31）
16个VFP寄存器（32bit），S0-S15

NEON和VFP的区别在于VFP是加速浮点计算的硬件不具备数据并行能力，同时VFP更尽兴双精度浮点数（double）的计算，NEON只有单精度浮点计算能力。更多请参考stackoverflow:neon vs vfp

基本数据类型

64bit数据类型，映射至寄存器即为D0-D31

128bit数据类型，映射至寄存器即为Q0-Q15

结构化数据类型

下面这些数据类型是上述基本数据类型的组合而成的结构化数据类型，通常为被映射到多个寄存器中。

typedef struct int8x8x2_t
{
  int8x8_t val[2];
} int8x8x2_t;
...
//省略...
...
#ifdef __ARM_FEATURE_CRYPTO
typedef struct poly64x2x4_t
{
  poly64x2_t val[4];
} poly64x2x4_t;
#endif

基本指令:

NEON指令按照操作数类型可以分为正常指令、宽指令、窄指令、饱和指令、长指令。

正常指令：生成大小相同且类型通常与操作数向量相同到结果向量。
长指令：对双字向量操作数执行运算，生产四字向量到结果。所生成的元素一般是操作数元素宽度到两倍，并属于同一类型。L标记，如VMOVL。
宽指令：一个双字向量操作数和一个四字向量操作数执行运算，生成四字向量结果。W标记，如VADDW。
窄指令：四字向量操作数执行运算，并生成双字向量结果，所生成的元素一般是操作数元素宽度的一半。N标记，如VMOVN。
饱和指令：当超过数据类型指定到范围则自动限制在该范围内。Q标记，如VQSHRUN

NEON指令按照作用可以分为：加载数据、存储数据、加减乘除运算、逻辑AND/OR/XOR运算、比较大小运算等

具体实现:

// 宏定义: 以空间换时间.. 小心使用..
// ---------PC端:SSE指令集----------------
// 高纬度的1:4 拷贝 4字节->16
#define set4(output_buf_y,input_buf_y) {\
	__m128i itmp1 = _mm_loadl_epi64((__m128i*)(input_buf_y));\
	__m128i itmp2 = _mm_unpacklo_epi8(itmp1, itmp1);\
	__m128i dst = _mm_unpacklo_epi8(itmp2, itmp2);\
	__m128i* otmp = (__m128i*)(output_buf_y);\
	_mm_store_si128(otmp, dst);\
}
// 中纬度的1:2 拷贝 8字节->16
#define set2(output_buf_y,input_buf_y) {\
	__m128i itmp =_mm_loadl_epi64((__m128i*)(input_buf_y));\
	__m128i* otmp = (__m128i*)(output_buf_y);\
	_mm_store_si128(otmp, _mm_unpacklo_epi8(itmp, itmp));\
}
// ---------Android端:NEON指令集----------------
#define NEON_INTRINSICS 1// 1:neon内联函数 0:汇编
#if NEON_INTRINSICS
//1:4 拷贝 8->32
#define set4(output_buf_y,input_buf_y) {\
        uint8x8x4_t v;\
        v.val[0] = vld1_u8(input_buf_y);\
        v.val[1] = v.val[0];\
        v.val[2] = v.val[0];\
        v.val[3] = v.val[0];\
        vst4_u8(output_buf_y,v);\
}
// 1:2 拷贝 8字节->16
#define set2(output_buf_y,input_buf_y) {\
        uint8x8x2_t v;\
        v.val[0] =vld1_u8(input_buf_y);\
        v.val[1] = v.val[0];\
        vst2_u8(output_buf_y,v);\
}
#else
// 汇编版本
void set4(unsigned char * output_buf_y,unsigned char * input_buf_y) {\
	__asm__(\
        "VLD1.8 {d0},[r1] \t\n"\
        "VMOV   d1,d0 \t\n"\
        "VMOV   d2,d0 \t\n"\
		"VMOV   d3,d0 \t\n"\
		"VST4.8 {d0, d1, d2, d3}, [r0]"\
	);\
}
void set2(unsigned char *output_buf_y,unsigned char *input_buf_y) {\
	__asm__(\
        "VLD1.8 {d0},[r1] \t\n"\
        "VMOV   d1,d0 \t\n"\
        "VST2.8 {d0, d1}, [r0]"\
	);\
}
#endif