如何使用SSE指令提高FIR算法效率（进化二）

最新推荐文章于 2022-02-26 16:27:24 发布

hello_wyq

最新推荐文章于 2022-02-26 16:27:24 发布

阅读量1.7k

点赞数

分类专栏： MMX/SSE指令文章标签：算法 c float 优化存储框架

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hello_wyq/article/details/3402563

版权

MMX/SSE指令专栏收录该内容

9 篇文章 0 订阅

订阅专栏

rel="File-List" href="file:///C:/DOCUME%7E1/MICROS%7E1/LOCALS%7E1/Temp/msoclip1/01/clip_filelist.xml">

如何使用SSE指令提高FIR算法效率（进化二）

在“如何使用SSE指令提高FIR算法效率（进化一）“一文中，我们通过SHUFPS指令来完成行列向量之间的转化，实现了向量相加一次写操作的功能，很大程度的提高了程序的执行效率。

那么参考SSE/SEE2的指令，我们能否用其他方式来完成呢？

恩…，好像有，再想想…

哦，对了，MOVLHPS,MOVLHPS不是也可以吗？那么让我们看看如何实现吧J！

为了是大家能够看的清楚一些，代码中加入了部分的注释（很抱歉，在相关的前两篇文章中，我没有做这个方面的工作:-(，以后一定要加强)。

还是在看代码之前，先回顾一下问题：

我们要把A3+A2+A1+A0的值放入数组out[ 0 ]中，B3+B2+B1+B0的值放入out[ 1 ]中，依次类推直到out[ 3 ] = D3+D2+D1+D0。程序的前半段已经将它们存储到

xmm0=[A3, A2, A1, A0]

xmm1=[B3, B2, B1, B0]

xmm2=[C3, C2, C1, C0]

xmm3=[D3, D2, D1, D0]

因为它们是行相加而非是列相加，所以没有合适的SSE/SSE2指令直接使用。程序的下半段利用MOVLHPS,MOVHLPS和SHUFPS的组合实现了转换和向量相加，并存储于out数组中。

static void ShowFIR_O4( float *inPtr, float *outPtr, float *coeffPtr, unsigned int count )

{

__asm

{

xorps xmm0, xmm0

xorps xmm1, xmm1

xorps xmm2, xmm2

xorps xmm3, xmm3

xor eax, eax

xor ecx, ecx

mov ebx, DWORD PTR[ coeffPtr ]

mov esi, DWORD PTR[ inPtr ]

mov edx, DWORD PTR[ outPtr ]

jmp b2

b1:

movaps xmm4, XMMWORD PTR[ ebx + ecx * 4 ]

movaps xmm5, XMMWORD PTR[ esi + ecx * 4 ]

mulps xmm5, xmm4

addps xmm0, xmm5

movups xmm5, XMMWORD PTR[ esi + ecx * 4 + 4 ]

mulps xmm5, xmm4

addps xmm1, xmm5

movups xmm5, XMMWORD PTR[ esi + ecx * 4 + 8 ]

mulps xmm5, xmm4

addps xmm2, xmm5

movups xmm5, XMMWORD PTR[ esi + ecx * 4 + 12 ]

mulps xmm5, xmm4

addps xmm3, xmm5

add ecx, 4

cmp ecx, TAP

jb b1

// xmm0: A3, A2, A1, A0

// xmm1: B3, B2, B1, B0

// xmm2: C3, C2, C1, C0

// xmm0: D3, D2, D1, D0

movaps xmm4, xmm0 // xmm4: A3, A2, A1, A0

movlhps xmm4, xmm1 // xmm4: B1, B0, A1, A0

movaps xmm5, xmm1 // xmm5: B3, B2, B1, B0

movhlps xmm5, xmm0 // xmm5: B3, B2, A3, A2

addps xmm4, xmm5 // xmm4: B1+B3, B0+B2, A1+A3, A0+A2

movaps xmm6, xmm2 // xmm6: C3, C2, C1, C0

movlhps xmm6, xmm3 // xmm6: D1, D0, C1, C0

movaps xmm7, xmm3 // xmm7: D3, D2, D1, D0

movhlps xmm7, xmm2 // xmm7: D3, B2, C3, C2

addps xmm6, xmm7 // xmm6: D1+D3, D0+D2, C1+C3, C0+C2

movaps xmm5, xmm4 // xmm5: B1+B3, B0+B2, A1+A3, A0+A2

shufps xmm4, xmm6, 0x88 // xxm4: D0+D2, C0+C2, B0+B2, A0+A2

shufps xmm6, xmm5, 0xDD // xmm6: D1+D3, C1+C3, B1+B3, A1+A3

addps xmm4, xmm6 // xMM4: D0+D1+D2+D3, C0+C1+C2+C3, B0+B1+B2+B3, A0+A1+A2+A3

movaps XMMWORD PTR[ edx + eax * 4 ], xmm4

add eax, 4

b2:

cmp eax, count - TAP

jb b1

}

}

相比于ShowFIR_O3中的相关部分，这里的指令数明显少了很多（ShowFIR_O4有15条指令，ShowFIR_O3有31条指令），大概为其的一半。

那么我们是否会认为它的速度要快很多呢？

也许吧？！从理论上说，指令少总是要快一些的，但是ShowFIR_O4使用的MOVHLPS,MOVLHPS是数据相关的指令，它可能会受到这个方面的影响。不过，所有的猜想总没有测试来的直接。

请看下面数据：

在Intel Pentium-M2.2G上运行10000次后的计数值：

4: ShowFIR_O3 delta = 1475

5: ShowFIR_O4 delta = 1476

在AMD Anthlon 4600+上运行10000次后的计数值：

4: ShowFIR_O3 delta = (783, 0)

5: ShowFIR_O4 delta = (799, 0)

从结果看，两者的性能差不多（个人观点，它们的结果会因为CPU框架不同产生一些或快或慢的结果，但是差别不会太大。）。ShowFIR_O3中的操作没有进行优化，如果在稍慢的情况下，能够通过再次优化来提速。

小结：

1. 本文主要目的是提供一个实现方法来开阔思路，在实现的同时也能够回顾和进一步熟练使用SSE/SSE2指令。

2. 它与ShowFIR_O3中的相关代码段可以作为一个模板供日后参考使用。

总之，它是对以前一篇学习笔记的再探讨，所有的东西并不是最佳答案，它将会在日后的学习中逐步完善。正如以前一贯的作风，希望网友们能够给我多找出一些岔子，以便我再学习再提高。谢谢了！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
如何使用SSE指令提高FIR算法效率（进化二）

Normal 0 7.8 磅 0 2 <!-- /* Font Definitions */@font-face {font-family:Wingdings; panose-1:5 0 0 0 0 0 0 0 0 0; mso
复制链接

扫一扫

专栏目录

hello_wyq CSDN认证博客专家 CSDN认证企业博客

码龄24年

162: 原创

12万+: 周排名

130万+: 总排名

83万+: 访问

: 等级

9901: 积分

130: 粉丝

48: 获赞

358: 评论

192: 收藏

私信

关注

热门文章

分类专栏

ADTV 27篇
Bugzilla 2篇
C/C++ 84篇
Clearcase 19篇
Color Space 7篇
CUDA/OpenCL/DirectX 1篇
DIY 1篇
Doxygen 6篇
FFmpeg 32篇
Java 20篇
Linux 54篇
MICOM 3篇
MMX/SSE指令 9篇
SCons
SVN 11篇
VBA/EXCEL 8篇
Windows 37篇
XUL/XPCOM 7篇
出国故事 4篇
杂项 11篇
科技 11篇
Python 2篇

最新评论

关于pthread_cond_signal与pthread_cond_broadcast的使用说明
鲸落南北_yls: 为了线程安全，牺牲了线程切换造成的性能消耗
关于pthread_cond_signal与pthread_cond_broadcast的使用说明
鲸落南北_yls: 在锁区域之外，调用signal,posix明确允许这么做，随之而来的确定因素：我们可以预见调度行为吗？
Python下unicode字符串的处理
Tisfy: 楼主绝对是具备广阔胸怀和完整知识体系的人
如何在linux/unix中设置线程的优先级
liuqun69: 博主末尾给出的这份样例代码太误导初学者啦我重写的一份样例代码，连接如下：https://www.jianshu.com/p/c0055e27a60e 希望大家批评指正 [code=cpp] void show_thread_info() { int err; int policy; struct sched_param schedule_parameters; printf("--- Show policy and priority of current thread:\n"); err = pthread_getschedparam(pthread_self(), &policy, &schedule_parameters ); assert( !err ); switch (policy) { case SCHED_FIFO: printf("--- policy = SCHED_FIFO\n"); break; case SCHED_RR: printf("--- policy = SCHED_RR\n"); break; case SCHED_OTHER: printf("--- policy = SCHED_OTHER\n"); break; default: printf("--- policy = UNKNOWN\n"); break; } printf("--- Current thread's sched_priority = %d\n", schedule_parameters.sched_priority); } [/code]
Python utf-8与byte的解码问题
战猿回复橙子皮eat辣椒: 这个是传智燕青老师博客，我也是刚发现的https://blog.csdn.net/weixin_44062339

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。