因为最近在做SSE/AVX指令集优化视频编码的某些模块,所以要学习SSE指令集的用法。本帖主要记录本人用到的函数的用法。
一、SSE指令(128位寄存器)
__m128i _mm_load_si128 (__m128i *p);
MOVDQA
将p加载到128位寄存器上,比如p指针指向int类型(32位),则取出4个值加载到寄存器上。必须是16字节对齐方式。
__m128i _mm_loadu_si128 (__m128i *p);
MOVDQU
这个函数比上一个多了一个u,意思是不用必须16字对齐。
__m128i _mm_mul_epi32