Python技巧:Python 如何实现并行化

Python 在程序并行化方面多少有些声名狼藉。撇开技术上的问题,例如线程的实现和 GIL,我觉得错误的教学指导才是主要问题。常见的经典 Python 多线程、多进程教程多显得偏"重"。而且往往隔靴搔痒,没有深入探讨日常工作中最有用的内容。

传统的例子

简单搜索下"Python 多线程教程",不难发现几乎所有的教程都给出涉及类和队列的例子:

 
  1. import os

  2. import PIL

  3. from multiprocessing importPool

  4. from PIL importImage

  5. SIZE = (75,75)

  6. SAVE_DIRECTORY = "thumbs"

  7. def get_image_paths(folder):

  8. return(os.path.join(folder, f)

  9. for f in os.listdir(folder)

  10. if"jpeg"in f)

  11. def create_thumbnail(filename):

  12. im = Image.open(filename)

  13. im.thumbnail(SIZE, Image.ANTIALIAS)

  14. base, fname = os.path.split(filename)

  15. save_path = os.path.join(base, SAVE_DIRECTORY, fname)

  16. im.save(save_path)

  17. if __name__ == "__main__":

  18. folder = os.path.abspath(

  19. "11_18_2013_R000_IQM_Big_Sur_Mon__e10d1958e7b766c3e840")

  20. os.mkdir(os.path.join(folder, SAVE_DIRECTORY))

  21. images = get_image_paths(folder)

  22. pool = Pool()

  23. pool.map(creat_thumbnail, images)

  24. pool.close()

  25. pool.join()

哈,看起来有些像 Java 不是吗?

我并不是说使用生产者/消费者模型处理多线程/多进程任务是错误的(事实上,这一模型自有其用武之地)。只是,处理日常脚本任务时我们可以使用更有效率的模型。

问题在于…

首先,你需要一个样板类;其次,你需要一个队列来传递对象;而且,你还需要在通道两端都构建相应的方法来协助其工作(如果需想要进行双向通信或是保存结果还需要再引入一个队列)。

worker 越多,问题越多

按照这一思路,你现在需要一个 worker 线程的线程池。下面是一篇 IBM 经典教程中的例子——在进行网页检索时通过多线程进行加速。

 
  1. #Example2.py

  2. """

  3. A more realistic thread pool example

  4. """

  5. im

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值