快速初始化内存(2)

最新推荐文章于 2022-03-22 15:00:59 发布

jerrylhw

最新推荐文章于 2022-03-22 15:00:59 发布

阅读量993

点赞数

文章标签：编译器 cache 汇编优化测试微软

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jerrylhw/article/details/20301

版权

因为我们使用静态库链接，Intel版本在代码中是一个函数调用。跟踪进入，可以发现Intel的实现在第一次调用时会先检测CPU类型，然后根据CPU类型跳转到不同的实现。在P4 机器上，其主循环如下：

00401A40 sub ecx,80h

00401A46 movdqa xmmword ptr [edx],xmm0

00401A4A movdqa xmmword ptr [edx+10h],xmm0

00401A4F movdqa xmmword ptr [edx+20h],xmm0

00401A54 movdqa xmmword ptr [edx+30h],xmm0

00401A59 movdqa xmmword ptr [edx+40h],xmm0

00401A5E movdqa xmmword ptr [edx+50h],xmm0

00401A63 movdqa xmmword ptr [edx+60h],xmm0

00401A68 movdqa xmmword ptr [edx+70h],xmm0

00401A6D add edx,80h

00401A73 cmp ecx,80h

00401A79 jge ___intel_new_memset+750h (00401a40)

可见Intel的实现使用了SSE2的128位xmm寄存器，并且为了促使指令并行，放置了8条复制指令，这样每个循环能够复制128×8=512 Bit。

MSC版本：

42: for (j=0; j< LoopTimes; j++)

43: {

44: memset(lpByte,1,SIZE);

0040103B mov ecx,1900000h

00401040 mov eax,1010101h

00401045 mov edi,ebx

00401047 dec edx

00401048 rep stos dword ptr [edi]

0040104A jne threadfunc+3Bh (0040103b)

如果是Debug版本，因为微软提供了CRT的sourcecode，可以跟踪其汇编实现，在Release版本，优化结果为把函数调用展开，但因为这里的实现只使用了普通的386指令按DWORD传送数据，所以在性能上会有如此大的差异。

另外，如果测试代码中的SIZE定义为较小的值，比如1024*128，在L2 cache为512K的P4上，两种方法的执行结果相差不大，由此可见Cache对局部访问的促进作用。

说明：以上例子在VC6和VC7中的结果相同。如果直接用Intel编译器编译，直接使用memset即可，Intel编译器在遇到memset时实际上编译为__VEC_memset，然后链接到Intel的Runtime库上。

VC6项目文件

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
快速初始化内存(2)

因为我们使用静态库链接，Intel版本在代码中是一个函数调用。跟踪进入，可以发现Intel的实现在第一次调用时会先检测CPU类型，然后根据CPU类型跳转到不同的实现。在P4 机器上，其主循环如下： 00401A40 sub ecx,80h00401A46 movdqa xmmword ptr [edx],xmm000401A4A movdqa
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。