python 的多线程不是真正的多线程。为了发挥多核 CPU 的威力,就要用到多进程。multiprocessing 包含了一些 API,但不是很好用。最好用的是 concurrent.futures.ProcessPoolExecutor,一个 high level 的 package。官方的 documentation 上就有示例代码。那个线程的示例代码也可以参考。
concurrent.futures 是 3.2 版本引入的,用旧版本的童鞋请猛戳这里。
PEP:http://www.python.org/dev/peps/pep-3148/
示例代码:http://docs.python.org/3/library/concurrent.futures.html#processpoolexecutor
现在还有一个问题:子进程如果异常退出,父进程在调用 future.result() 时会 capture 这个异常,可是不能显示出错行号,不方便 debug。该如何解决呢?
想到一个方法:
1. 自定义一个 class
2. 子进程 capture 异常,如果出错,就 traceback.format_exc(),作为自定义 class 里的一个变量,然后返回那个 class
3. 对父进程来说,子进程永远不会出错。用 isinstanceof(),来判断子进程是否出错。出错的话就可以显示 debug 信息啦。
如果父进程退出,子进程肿么办?
如果像例子一样,用了 with concurrent.futures.ProcessPoolExecutor() 的话,所有子进程还是会照常执行。要取消的话,调用 Future.cancel()。执行完毕和已经取消的,会立即返回 True。Pending 的会取消,也返回 True。正在执行的,会返回 False,没办法,慢慢等吧。一般来说,用到并行处理的,都是些轻量级的任务,稍微等等也没关系吧。如果子进程很费时间,那只能子进程去主动检测父进程是否已经退出了。