
Python 在程序并行化方面多少有些声名狼藉。撇开技术上的问题,例如线程的实现和 GIL,我觉得错误的教学指导才是主要问题。常见的经典 Python 多线程、多进程教程多显得偏"重"。而且往往隔靴搔痒,没有深入探讨日常工作中最有用的内容。
传统的例子
简单搜索下"Python 多线程教程",不难发现几乎所有的教程都给出涉及类和队列的例子:
-
import os -
import PIL -
from multiprocessing importPool -
from PIL importImage -
SIZE = (75,75) -
SAVE_DIRECTORY = "thumbs" -
def get_image_paths(folder): -
return(os.path.join(folder, f) -
for f in os.listdir(folder) -
if"jpeg"in f) -
def create_thumbnail(filename): -
im = Image.open(filename) -
im.thumbnail(SIZE, Image.ANTIALIAS) -
base, fname = os.path.split(filename) -
save_path = os.path.join(base, SAVE_DIRECTORY, fname) -
im.save(save_path) -
if __name__ == "__main__": -
folder = os.path.abspath( -
"11_18_2013_R000_IQM_Big_Sur_Mon__e10d1958e7b766c3e840") -
os.mkdir(os.path.join(folder, SAVE_DIRECTORY)) -
images = get_image_paths(folder) -
pool = Pool() -
pool.map(creat_thumbnail, images) -
pool.close() -
pool.join()
哈,看起来有些像 Java 不是吗?
我并不是说使用生产者/消费者模型处理多线程/多进程任务是错误的(事实上,这一模型自有其用武之地)。只是,处理日常脚本任务时我们可以使用更有效率的模型。
问题在于…
首先,你需要一个样板类;其次,你需要一个队列来传递对象;而且,你还需要在通道两端都构建相应的方法来协助其工作(如果需想要进行双向通信或是保存结果还需要再引入一个队列)。
worker 越多,问题越多
按照这一思路,你现在需要一个 worker 线程的线程池。下面是一篇 IBM 经典教程中的例子——在进行网页检索时通过多线程进行加速。
-
#Example2.py -
""" -
A more realistic thread pool example -
""" -
import time -
import threadi

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



