所有的代码 aligned/unaligned 都达到了CPU 理论值 16byte/cycle, 大字节(大于4M)的拷贝性能提高了15%,等发布的时候给愿意看的人总结一下吧。
1.反向拷贝对提高性能有帮助,他让我避免了来自Data Cache 的fetch-next-line的硬件预取。
这个linux kernel的patch 说明了相同的问题:https://lkml.org/lkml/2011/6/17/252
2。使用 lfence 指令避免load 指令out of order, 说起来有些复杂,举个简单的例子,有些时候道路空旷的时候,闯红灯会提高道路的througput,但是如果道路拥塞,
还是听红绿灯的指挥道路的throughtput 会更好.