本文要谈的是这样一条指令:
PSADBW
这条指令是SSE1引入的用于视频编码绝对差值求和的指令。
在视频编码中的运动估计模块,一种常见的SAD代码如下:
1 // Get the SAD 16x16 macro block with full pixel 2 for (y = 0; y < 16; y++) 3 for(x = 0; x < 16; x++) 4 sad += abs(current[y][x] - reference[y][x])
对于这段代码,我们首先来用MMX指令做优化。
1. SAD的MMX优化
我们使用带饱和运算的PSUBUSB指令来实现求ABS (B - A)的功能。具体原理描述如下:
计算完ABS之后还需要把字节型数据扩展为字型数据,这样,以方便累加不会溢出。较为完整的代码如下:
2. SAD的SSE优化
直接使用PSADBW指令,非常简洁。
2.1 SSE optmization version 1
2.2 SSE optmization version 2
2.3 2.1 SSE optmization version 3
注意:SSE第一个版本使用的是MMX寄存器,而第二个版本和第三版本使用的是128位的XMM寄存器。
而SSE的第三个版本使用的非对齐的数据加载指令 MOVDQU指令。