编译器:Intel C++编译器
测试环境: CentOS
【问题】
针对两个同样功能的程序,一个不使用SSE,一个使用SSE (intel intrinsics),结果当不适用编译器优化时,使用SSE时速度优于不适用SSE,而当编译器使用O2优化时,使用SSE反而使速度下降。
样例程序sse_normal.c:
#include
using namespace std;
const int N=12000;
int main()
{
float f1[N],f2[N],f3[N];
float sum = 0.0,xmm;
for(int i=0;i
f1[i]=i+0.12;
f2[i]=i+0.16;
f3[i] = i + 0.18;
}
for(int j = 0; j < 1000; j++)
{
for(int i=0;i
xmm =f1[i] - f2[i];
sum += xmm * xmm * f3[i];
}
}
printf("sum: %f/n", sum);
return 0;
}
【程序】
样例程序sse.c:
#include
#include
using namespace std;
const int N=12000;
int main()
{
__m128 *p1,*p2,*p3;
__m128 sum = _mm_set1_ps(0.0);
__m128 xmm = _mm_set1_ps(0.0);
__declspec(align(16)) float f1[N],f2[N],f3[N];
float *temp;
for(int i=0;i
f1[i]=i+0.12;
f2[i]=i+0.16;
f3[i] = i + 0.18;
};
for(int j = 0; j < 1000; j++)
{
p1=(__m128*)f1;
p2=(__m128*)f2;
p3=(__m128*)f3;
for(int i=0;i
xmm =_mm_sub_ps(*p1,*p2);
sum = _mm_add_ps(sum,_mm_mul_ps(_mm_mul_ps(xmm,xmm),*p3));
++p3;
++p2;
++p1;
}
}
temp = (float*)∑
printf("sum: %f/n", temp[0] + temp[1] + temp[2] + temp[3]);
return 0;
}
【编译】
icpc -O0 -o ss_0 sse.c
icpc -O2 -o ss sse.c
icpc -O0 -o nn_0 sse_normal.c
icpc -O2 -o nn sse_normal.c
【测试时间性能】
[myacc@server test]$ time ./ss_0
sum: 115222928.000000real 0m0.026s
user 0m0.025s
sys 0m0.001s
[myacc@server test]$ time ./nn_0
sum: 113784920.000000real 0m0.075s
user 0m0.073s
sys 0m0.002s
[myacc@server test]$ time ./ss
sum: 115222928.000000real 0m0.010s
user 0m0.009s
sys 0m0.000s
[myacc@server test]$ time ./nn
sum: 115302784.000000real 0m0.004s
user 0m0.003s
sys 0m0.001s
【总结】
这个问题很古怪,需要看优化后的汇编代码才知道了。