vc2010 sse指令优化效果明显

对于大量浮点数运算,用sse指令优化的效果是非常明显的。
vs2010的编译器内置函数([Compiler Intrinsics])支持see指令,所以程序员不必痛苦的用汇编指令来实现sse指令优化,关于详细的sse指令说明参见microsoft的官方文档

Streaming SIMD Extensions (SSE)(点击打开链接)

下面这段代码用简单的循环实现两个浮点数组的点积之和,用sse指令重写之后效率相差4倍多。其实道理也很简单,每条sse指令可以实现128位数的运算,对float型数据,就是4组float同时运算,循环次数减少4倍,效率自然也能提高4倍。

double dot_product_default(const float* f1, const float* f2) {
    double sum = (double) 0.0;
    for (unsigned int i = 0; i < CODE_FLOAT_NUM; i++)
        sum += (*f1++) * (*f2++);
    return sum;
}

sse指令优化后的代码

#include <cstdlib>
#include <cmath>
#include <mmintrin.h>
#pragma pack(16) 
//16字节对齐,因为sse是每次处理128位数据,所以代码16字节对齐,才能更好的发挥sse的性能
#ifndef CODE_FLOAT_NUM
#define CODE_FLOAT_NUM 210
#endif
double dot_product_sse(const float* f1, const float* f2) {
    __m128* src1=(__m128*)f1;
    __m128* src2=(__m128*)f2;
    __m128 m1=_mm_setzero_ps();
    //CODE_FLOAT_NUM>>2循环次数减少4倍
    for (unsigned int i = 0; i < CODE_FLOAT_NUM>>2; i++,src1++,src2++){
        m1=_mm_add_ps(m1,_mm_mul_ps(*src1,*src2));//4对float相乘后结果累加到m1中
    }
#if CODE_FLOAT_NUM%4==1
//如果数据长度不是4的倍数,剩余的1个float要转换后才能用sse指令计算
    __m128 t1=_mm_load_ss(*(float*)src1);
    __m128 t2=_mm_load_ss(*(float*)src2);
    m1=_mm_add_ps(m1,_mm_mul_ps(t1,t2));
#elif CODE_FLOAT_NUM%4==2 
//如果数据长度不是4的倍数,剩余的2个float要转换后才能用sse指令计算
    __m128 z=_mm_setzero_ps();
    __m128 t1=_mm_shuffle_ps(*src1,z,_MM_SHUFFLE(0,0,1,0));//将高位的2个float置0
    __m128 t2=_mm_shuffle_ps(*src2,z,_MM_SHUFFLE(0,0,1,0));//将高位的2个float置0
    m1=_mm_add_ps(m1,_mm_mul_ps(t1,t2));
#elif CODE_FLOAT_NUM%4==3 
//如果数据长度不是4的倍数,剩余的3个float要转换后才能用sse指令计算
    __m128 t1=*src1;
    __m128 t2=*src2;
    t1.m128_f32[3]=0;//将最高的float置0
    t2.m128_f32[3]=0;//将最高的float置0
    m1=_mm_add_ps(m1,_mm_mul_ps(t1,t2));
#endif
    return m1.m128_f32[0]+m1.m128_f32[1]+m1.m128_f32[2]+m1.m128_f32[3];
    //最后将4个float的累加合再累加作为返回值
}

关于哪些cpu支持sse指令的问题,这个不用太担心,intel的cpu在386以后都支持了,所有基于x86架构的cpu都支持sse(包括amd或其他品牌).
也可以通过程序检测cpu是否支持sse,参见

C++环境测试CPU是否支持MMX,SSE等(点击打开链接)

gcc编译也支持sse,调用方法也差不多,还在实现中。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

10km

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值