这学期课程要做project,把一个程序改写成并行的。说起来容易,用OpenMP把所有的for循环都加个并行参数然后编译,运行,性能就提高了。原本打算用simple scalar做,结果发现这里的循环都是while类的循环,终止条件事先不知道,没法parallel for处理掉。结果是改写了faac。但目前看来用了并行后性能反而下降了。推测原因是并行的fork和synchronization的overhead实在太大了,结果整个程序都改得面目全非。
个人认为尽管现在多核把程序员忽悠的云里雾里,实际上桌面程序用不着并行,要并行也是scheduler级别的并行。大家可以看看自己台式机或笔记本上有着几个完全是一个exe或ELF格式的需要并行的程序。像word这一类的程序大部分时间都在等用户输入,不用并行。GCC,LaTeX之类的编译程序则一般都是几个文件一起处理,其实只要这几个文件并行编译就可以了。上网,网页本身的解析可能费时点,但那是一次性的。如果有flash或是直接看电影,一个核处理网页,一个处理解码,两个核就都用上了。大部分程序都不用并行。这时有人会说,如果有4核或8核的怎么办。要我说,这么多核是浪费。那么多运算的数据都从哪来?内存硬盘慢得要死,大部分时间都耗在load/store上面了。在我看来顶多在游戏上还可能用到点多核,不过仅有的大规模运算都给了显卡,所以CUDA来了,CPU在一次闲置了。
服务器上大部分都是并行的请求,瓶颈都在I/O上面。少数的需要执行脚本的也非常容易写成并行的。
PDA,好像还没看到多核的。顶多是CPU+DSP模式的。
剩下的就是科学运算了。这个不说了,太好写成并行的了。
总之,在硬盘和内存这两个大瓶颈的问题解决之前,维持现状就可以了。