稀疏矩阵向量乘在向量场景下的优化研究(毕设踩坑记录)

算法计算瓶颈:主要集中在SIMD指令计算的过程中,取 __m256d 其中一个元素或者置一个元素为零。


问题一:置__m256d一个元素为0,但是AVX256没有掩码操作。

初步解决 :使用 _mm256_set_pd() 指令把要置0的位置设为0,其他位置设为1,再使用_mm256_mul_pd() 指令做乘法。

后期改进:使用 _mm256_set_pd() 指令设置mask,在使用_mm256_and_pd() ,每次写回可以降低4-5个时钟周期cycle。


问题二:取 __m256d 其中一个元素(double 类型) 。

目前方案:( (double*)&a )[idx] , 太慢了,AVX256没有reduce指令,有待解决。


问题三:AVX256-SSE指令切换会浪费100个cycle。

解决方案:查英特尔手册Avoiding AVX-SSE Transition Penalties。其中第一种方法似乎没什么优化效果,第二种反而会造成结果错误。


问题四:改多线程之后,同样的代码,运行一次结果正确,连续调用第二次结果出错。

发现问题:并行域中的SIMD指令单元,定义时不初始化就会导致连续第二次结果出错,在定义时初始化。

暂存疑惑:所有的变量均为线程内局部变量,为什么会导致第一次运行影响了第二次运行的结果。


问题五:待更。。。

 

 

 

 

 

学长说,要对于数据有自己的思考,即使做崩了也要分析出为什么崩。

学长说,一切都是有原因的。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值