是对这篇文章的笔记:
作者对simd方面有比较好的积累和研究,写一个高效的数学库。这篇文章主要比较实用的收获就是:
- xna 数学库不是盖的,一般自己随便写写pc程序的话就不用费力去自己搞个更高效的数学库了。
- intel自己编译器生成代码要比windows自带编译器要快,所以估计可以考虑弄个launcher,游戏编译2个版本出来,intel一个amd一个,根据processor选。
其他有点过于细节,加深下理解可以,实用价值比较有限。
think in hardware&low level stuff
现代cpu的vector计算部分很了得,写的好的,4个float的mad一个cycle搞定,写的不好的,就一个一个算了。
所以要解决的问题就是如何写出这样执行很快的指令。
1,使用intrinsics指令和数据结构有助于compiler生成高效代码(废话!)
2,注意一些情况,会导致compiler生成高效代码失败,文中提到一个class内部放__m128的情况
3,think in hardware,文中举了一个scaler的例子,其中很多register的load/write是可以避免的----这个还是直接去看user manual和生成汇编来的直接。