SSE是很常见的一个X86平台的指令集,早在P4时代就已经出现了。后来INTEL又接连着推出了SSE2,SSE3,SSE4等(不过可没有SSE5,原本规划是有的,后来INTEL独立发展了新一代AVX指令集旨在取代SSE,关于AVX现在资料还不是很多,用的也没有SSE普遍。毕竟支持AVX的CPU也不多,像我的T4400就不支持)。
废话不多说,还是来点实在的东西。大家都知道浮点数运算比起整数运算,速度的确是非常缓慢,很多领域比如图像处理中,需要大量用到浮点数运算,此时CPU就是一个很显著的瓶颈,为了提高浮点数性能,我们有两个方法:
1,化浮点为×××:即尽量通过某种数学变换将原来的浮点数运算变成整数运算。
2,使用SSE这类指令集:显然这种方法是本文重点,不过方法1也会一并用起。
以一个很常见的图像彩色转灰度为例。
根据色彩学上的一些理论,将一个RGB彩色像素转换成灰度,实际上是一个1*3矩阵和一个3*1矩阵相乘,说白了就是如下过程:
设原像素为p0 = (r0,g0,b0),转换为s=(r0*0.3,g0*0.6,b0*0.1),然后新的灰度像素p1=(s,s,s)。
这里可以看到,求得s值这一步中,有三次浮点运算,我们可以用方法1将这里的浮点运算暂时化为整数(全部乘以10),即
s=(r0*3,g0*6,b0*1),最后一次性除以10。
具体代码如下:
void doProcess(PBYTE pIn, DWORD size, DWORD width, DWORD height, DWORD bitCount)
{
  DWORD dwRGBSum = 0;
  for(DWORD dwIndex = 0; dwIndex < size; dwIndex+=3)
  {
    dwRGBSum =    
      1 * pIn[dwIndex+0] +     //Blue  
      6 * pIn[dwIndex+1] +     //Green  
      3 * pIn[dwIndex+2];        //Red  
    dwRGBSum /= 10.0;
    pIn[dwIndex+0] = dwRGBSum;
    pIn[dwIndex+1] = dwRGBSum;
    pIn[dwIndex+2] = dwRGBSum;
  }
}
现在我们再来使用SSE来进一步优化。
SSE一次性可以处理128位的运算,即4个浮点数。因而我们将四次除法放在一次进行,核心的一个数据结构是__m128,这是一个联合体,具体参见其源码。

SSE中批量浮点数乘法对应的C函数是_mm_mul_ps。用法可以参考MSDN或者INTEL官方网站上的一个PDF。

void doProcess(PBYTE pIn, DWORD size, DWORD width, DWORD height, DWORD bitCount)
{
  UINT16 dwRGBSum0 = 0;
  UINT16 dwRGBSum1 = 0;
  UINT16 dwRGBSum2 = 0;
  UINT16 dwRGBSum3 = 0;

  for(DWORD idx = 0; idx < size; idx+=12)
  {
    dwRGBSum0 =    
      1 * pIn[idx+0] +     //Blue
      6 * pIn[idx+1] +     //Green
      3 * pIn[idx+2];        //Red

    dwRGBSum1 =    
      1 * pIn[idx+3] +     //Blue
      6 * pIn[idx+4] +     //Green
      3 * pIn[idx+5];        //Red

    dwRGBSum2 =    
      1 * pIn[idx+6] +     //Blue
      6 * pIn[idx+7] +     //Green
      3 * pIn[idx+8];        //Red

    dwRGBSum3 =    
      1 * pIn[idx+9] +     //Blue
      6 * pIn[idx+10] +     //Green
      3 * pIn[idx+11];        //Red


    __m128 old = _mm_set_ps(dwRGBSum0, dwRGBSum1, dwRGBSum2, dwRGBSum3);
    __m128 ret = _mm_mul_ps(old, vec);

    pIn[idx+0] = pIn[idx+1] = pIn[idx+2] = (BYTE)ret.m128_f32[3];
    pIn[idx+3] = pIn[idx+4] = pIn[idx+5] = (BYTE)ret.m128_f32[2];
    pIn[idx+6] = pIn[idx+7] = pIn[idx+8] = (BYTE)ret.m128_f32[1];
    pIn[idx+9] = pIn[idx+10] = pIn[idx+11] = (BYTE)ret.m128_f32[0];
  }
}
代码看上去要比原来的复杂许多,不过其实原理很简单的,原来一次性处理一个像素,现在一次性处理4个,性能和效率大大提升了。

这个代码其实还可以优化的,因为SSE内除了浮点可以批量处理,整数也是可以的,对应的数据结构是__m128i。涉及到一些矩阵的知识,我就不多说了。

上面这个优化性能测试结果还是很明显的,原来的程序对一个2560*1600,24位色深的图片进行转换,需要将近800ms的时间,优化后,只需450ms了,提高了将近一倍。