python multiprocessing 中的那些 pools

最新推荐文章于 2022-12-04 11:21:16 发布

weixin_41671327

最新推荐文章于 2022-12-04 11:21:16 发布

阅读量411

点赞数 1

文章标签： python 并行计算多进程分布式计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41671327/article/details/119197212

版权

Parallel programming is easy, as long as you don’t care about the performance.

为什么要用multiprocessing这个module

因为threading库是线性处理的，等于没有并行
有些计算处理工作很明显是重复劳动，甚至其元素顺序都不重要（比如：产生随机10个数返回其的相关计算结果）
没有时间将耗时部分用C/C++/Fortran重写，降低开发周期

缺陷

如果参数很多，很大，那么传递参数（pool的初始化）需要花费较长时间。

Pool: imap_unordered(func,arg,chunksize)

func 可以是一个class的method (i.e. func=class.method)
作为imap，返回的是一个迭代器，可以给并行过程加进度条
chunksize是指将整个任务分块处理时块的大小，每个process一次做chunksize个任务，全部处理完成后集中给迭代器输出（仍然是一个一个返回，而不是一次返回一个chunksize大小的list）。分配任务给process时也是以chunksize为单位分配。

实操验证（benchmarking）

假设某个计算任务要执行N=200次，使用计算机上的4个空闲的核。
我们将顺序(单核)执行的耗时作为Baseline: 205 s

chunksize	N	N/4	N/5	N/8	N/10	N/20
imap_unordered	225 s	199 s	174 s	186s	204 s	281 s

weixin_41671327

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python multiprocessing 中的那些 pools

Parallel programming is easy, as long as you don’t care about the performance.为什么要用multiprocessing这个module因为threading库是线性处理的，等于没有并行有些计算处理工作很明显是重复劳动，甚至其元素顺序都不重要（比如：产生随机10个数返回其的相关计算结果）没有时间将耗时部分用C/C++/Fortran重写，降低开发周期缺陷如果参数很多，很大，那么传递参数（pool的初始化）需要花费.
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。