实现Fast Newman算法,发现跑2000个点的LFR数据集,速度实在是太慢了,从一开始每一轮迭代需要1分多钟,到后面5分钟才能跑一轮。于是想把这算法改成并行,在网上不知道哪抄了并行的代码,运行之后发现每个核心依然还是20-30%的使用率,且并行和串行用时差不多。
辛辛苦苦改了一天,终于发现问题了。
首先实现并行用的是多进程,也就是引入python自带的multiprocessing,
重点在于
from multiprocessing import Pool
而不是
from multiprocessing.dummy import Pool
前者适合cpu密集型任务,后者适合I/O密集型任务。
不知道在哪抄的代码用的是multiprocessing.dummy。。。改了一下午。。。。
另外,图中用的可以让CPU跑满的代码挺棒的,以后测试可以用:
reduce(lambda a, b: math.log(a + b), xrange(10 **5), x)