Python 在程序并行化方面多少有些声名狼藉。撇开技术上的问题,例如线程的实现和 GIL,我觉得错误的教学指导才是主要问题。常见的经典 Python 多线程、多进程教程多显得偏"重"。而且往往隔靴搔痒,没有深入探讨日常工作中最有用的内容。
传统的例子
简单搜索下"Python 多线程教程",不难发现几乎所有的教程都给出涉及类和队列的例子:
-
import os
-
import PIL
-
from multiprocessing importPool
-
from PIL importImage
-
SIZE = (75,75)
-
SAVE_DIRECTORY = "thumbs"
-
def get_image_paths(folder):
-
return(os.path.join(folder, f)
-
for f in os.listdir(folder)
-
if"jpeg"in f)
-
def create_thumbnail(filename):
-
im = Image.open(filename)
-
im.thumbnail(SIZE, Image.ANTIALIAS)
-
base, fname = os.path.split(filename)
-
save_path = os.path.join(base, SAVE_DIRECTORY, fname)
-
im.save(save_path)
-
if __name__ == "__main__":
-
folder = os.path.abspath(
-
"11_18_2013_R000_IQM_Big_Sur_Mon__e10d1958e7b766c3e840")
-
os.mkdir(os.path.join(folder, SAVE_DIRECTORY))
-
images = get_image_paths(folder)
-
pool = Pool()
-
pool.map(creat_thumbnail, images)
-
pool.close()
-
pool.join()
哈,看起来有些像 Java 不是吗?
我并不是说使用生产者/消费者模型处理多线程/多进程任务是错误的(事实上,这一模型自有其用武之地)。只是,处理日常脚本任务时我们可以使用更有效率的模型。
问题在于…
首先,你需要一个样板类;其次,你需要一个队列来传递对象;而且,你还需要在通道两端都构建相应的方法来协助其工作(如果需想要进行双向通信或是保存结果还需要再引入一个队列)。
worker 越多,问题越多
按照这一思路,你现在需要一个 worker 线程的线程池。下面是一篇 IBM 经典教程中的例子——在进行网页检索时通过多线程进行加速。
-
#Example2.py
-
"""
-
A more realistic thread pool example
-
"""
-
im