终于把AVX指令的memcpy 写完了 :)

所有的代码 aligned/unaligned 都达到了CPU 理论值 16byte/cycle, 大字节(大于4M)的拷贝性能提高了15%,等发布的时候给愿意看的人总结一下吧。

1.反向拷贝对提高性能有帮助,他让我避免了来自Data Cache 的fetch-next-line的硬件预取。

这个linux kernel的patch 说明了相同的问题:https://lkml.org/lkml/2011/6/17/252

 2。使用 lfence 指令避免load 指令out of order, 说起来有些复杂,举个简单的例子,有些时候道路空旷的时候,闯红灯会提高道路的througput,但是如果道路拥塞,

还是听红绿灯的指挥道路的throughtput 会更好.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值