用SSE指令集增强浮点运算性能

最新推荐文章于 2023-04-29 20:33:20 发布

weixin_34234823

最新推荐文章于 2023-04-29 20:33:20 发布

阅读量346

点赞数

文章标签：数据结构与算法人工智能

原文链接：http://blog.51cto.com/spinlock/646546

版权

SSE是很常见的一个X86平台的指令集，早在P4时代就已经出现了。后来INTEL又接连着推出了SSE2，SSE3，SSE4等（不过可没有SSE5，原本规划是有的，后来INTEL独立发展了新一代AVX指令集旨在取代SSE，关于AVX现在资料还不是很多，用的也没有SSE普遍。毕竟支持AVX的CPU也不多，像我的T4400就不支持）。

废话不多说，还是来点实在的东西。大家都知道浮点数运算比起整数运算，速度的确是非常缓慢，很多领域比如图像处理中，需要大量用到浮点数运算，此时CPU就是一个很显著的瓶颈，为了提高浮点数性能，我们有两个方法：

1，化浮点为×××：即尽量通过某种数学变换将原来的浮点数运算变成整数运算。

2，使用SSE这类指令集：显然这种方法是本文重点，不过方法1也会一并用起。

以一个很常见的图像彩色转灰度为例。

根据色彩学上的一些理论，将一个RGB彩色像素转换成灰度，实际上是一个1*3矩阵和一个3*1矩阵相乘，说白了就是如下过程：

设原像素为p0 = （r0，g0，b0），转换为s=（r0*0.3，g0*0.6，b0*0.1），然后新的灰度像素p1=（s，s，s）。

这里可以看到，求得s值这一步中，有三次浮点运算，我们可以用方法1将这里的浮点运算暂时化为整数（全部乘以10），即

s=（r0*3，g0*6，b0*1），最后一次性除以10。

具体代码如下：

void doProcess(PBYTE pIn, DWORD size, DWORD width, DWORD height, DWORD bitCount)
{
  DWORD dwRGBSum = 0;
  for(DWORD dwIndex = 0; dwIndex < size; dwIndex+=3)
  {
    dwRGBSum =
1 * pIn[dwIndex+0] + //Blue
6 * pIn[dwIndex+1] + //Green
3 * pIn[dwIndex+2]; //Red
    dwRGBSum /= 10.0;
    pIn[dwIndex+0] = dwRGBSum;
    pIn[dwIndex+1] = dwRGBSum;
    pIn[dwIndex+2] = dwRGBSum;
  }
}

现在我们再来使用SSE来进一步优化。

SSE一次性可以处理128位的运算，即4个浮点数。因而我们将四次除法放在一次进行，核心的一个数据结构是__m128，这是一个联合体，具体参见其源码。

SSE中批量浮点数乘法对应的C函数是_mm_mul_ps。用法可以参考MSDN或者INTEL官方网站上的一个PDF。

void doProcess(PBYTE pIn, DWORD size, DWORD width, DWORD height, DWORD bitCount)
{
  UINT16 dwRGBSum0 = 0;
  UINT16 dwRGBSum1 = 0;
  UINT16 dwRGBSum2 = 0;
  UINT16 dwRGBSum3 = 0;

  for(DWORD idx = 0; idx < size; idx+=12)
  {
    dwRGBSum0 =
      1 * pIn[idx+0] +     //Blue
      6 * pIn[idx+1] +     //Green
      3 * pIn[idx+2];        //Red

    dwRGBSum1 =
      1 * pIn[idx+3] +     //Blue
      6 * pIn[idx+4] +     //Green
      3 * pIn[idx+5];        //Red

    dwRGBSum2 =
      1 * pIn[idx+6] +     //Blue
      6 * pIn[idx+7] +     //Green
      3 * pIn[idx+8];        //Red

    dwRGBSum3 =
      1 * pIn[idx+9] +     //Blue
      6 * pIn[idx+10] +     //Green
      3 * pIn[idx+11];        //Red

    __m128 old = _mm_set_ps(dwRGBSum0, dwRGBSum1, dwRGBSum2, dwRGBSum3);
    __m128 ret = _mm_mul_ps(old, vec);

    pIn[idx+0] = pIn[idx+1] = pIn[idx+2] = (BYTE)ret.m128_f32[3];
    pIn[idx+3] = pIn[idx+4] = pIn[idx+5] = (BYTE)ret.m128_f32[2];
    pIn[idx+6] = pIn[idx+7] = pIn[idx+8] = (BYTE)ret.m128_f32[1];
    pIn[idx+9] = pIn[idx+10] = pIn[idx+11] = (BYTE)ret.m128_f32[0];
  }
}

代码看上去要比原来的复杂许多，不过其实原理很简单的，原来一次性处理一个像素，现在一次性处理4个，性能和效率大大提升了。

这个代码其实还可以优化的，因为SSE内除了浮点可以批量处理，整数也是可以的，对应的数据结构是__m128i。涉及到一些矩阵的知识，我就不多说了。

上面这个优化性能测试结果还是很明显的，原来的程序对一个2560*1600，24位色深的图片进行转换，需要将近800ms的时间，优化后，只需450ms了，提高了将近一倍。

转载于:https://blog.51cto.com/spinlock/646546

weixin_34234823

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
用SSE指令集增强浮点运算性能

SSE是很常见的一个X86平台的指令集，早在P4时代就已经出现了。后来INTEL又接连着推出了SSE2，SSE3，SSE4等（不过可没有SSE5，原本规划是有的，后来INTEL独立发展了新一代AVX指令集旨在取代SSE，关于AVX现在资料还不是很多，用的也没有SSE普遍。毕竟支持AVX的CPU也不多，像我的T4400就不支持）。废话不多说，还是来点实在的东西。大家...
复制链接

扫一扫