这篇文章写的很清楚。
我们配电脑的时候经常会听到双通道,一个通道就是一个channel
一个channel下可以放不同的rank就是内存条。
内存条上的小方块就是chip
chip内部就有好多bank
bank下就是存储单元了。
都是根据电路来访问,所以内存条突破了磁盘柱面的那种旋转的瓶颈。可以根据信号直接访问相应某个bank的某个行列里面的值。快快快~~~~
bank的写入操作。
双通道加速原理?
与指令流水线的思路一摸一样
优化内存访问
for(int i=0;i<N;i++)
read(fd,buf+i,128);
for(int i=0;i<N;i++)
memcpy(addr1+i,addr2+i,128);
就拿上面这两个函数来说。
这种for循环的读取,就无法满足流水线的
取址,译码,执行
因为执行这个阶段,大概率一直在读取同一个bank,这时就会出现问题,一个bank的地址解码器只有一个,一直被占用的
我们无法流水地执行。即使我们有多核多线程的CPU,性能还是卡在了读取同一个bank的数据这里,还是变成了单核单线程的效果。
所以,如果循环次数不大,最好可以插入几个其他的指令过来。
但是具体量化插入什么指令,插入多少指令。还是要精确计算,根据我们了解的CPU主频,指令的ARM/MIPS/X86?
最好回归到汇编去量化。
所以说代码优化需要非常丰富和准确的知识。。。