python 共享数据_在Python中以并行方式对共享数据执行大量计...

最新推荐文章于 2022-10-14 09:58:12 发布

weixin_39734020

最新推荐文章于 2022-10-14 09:58:12 发布

阅读量117

点赞数

文章标签： python 共享数据

本文链接：https://blog.csdn.net/weixin_39734020/article/details/111437030

版权

您无法使用Python中的线程(至少不是您可能正在使用的CPython实现)来有效地做到这一点. Global Interpreter Lock意味着,您希望获得的效率不是8个核中将近800％的效率,而是90％.

但是,您可以使用单独的流程来执行此操作.标准库中内置了两个选项：concurrent.futures和multiprocessing.通常,期货在简单情况下更简单,通常更容易编写；通常,多处理更灵活,功能更强大.期货也仅随Python 3.2或更高版本一起提供,但有a backport for 2.5-3.1 at PyPI.

您想要多处理的灵活性的情况之一就是共享数据结构很大.有关详细信息,请参见Sharing state between processes以及正上方,下方和从其链接的部分.

如果您的数据结构真的很简单,例如大量的int数组,那么这很简单：

class MyClass(object):

def __init__(self, giant_iterator_of_ints):

self.big_shared_object = multiprocessing.Array('i', giant_iterator_of_ints)

def compute_heavy_task(self):

lock = multiprocessing.Lock()

def subtask(my_range):

return some_expensive_task(self.big_shared_object, lock, my_range)

pool = multiprocessing.pool.Pool(5)

my_ranges = split_into_chunks_appropriately(len(self.big_shared_object)

results = pool.map_async(subtask, my_ranges)

pool.close()

pool.join()

请注意,some_expensive_task函数现在需要一个锁定对象-它必须确保在对共享对象的每次访问(或更经常地,由一个或多个访问组成的每个“事务”)周围获取锁定.锁定规则可能很棘手,但是如果您想使用直接数据共享,则锁定它实际上是没有办法的.

还要注意,它需要一个my_range.如果仅对同一对象调用5次相同的函数,它将对同一对象执行5次,这可能不是很有用.并行化事物的一种常用方法是为每个任务分配整个数据集的子范围. (除了通常很容易描述之外,如果您对此有所注意,并且使用了正确的算法,您甚至可以避免用这种方式进行大量锁定.)

如果您想将一堆不同的函数映射到同一数据集,则显然需要一些函数集合来工作,而不仅仅是重复使用some_expensive_task.然后,您可以例如遍历每个调用apply_async的这些函数.但是,您也可以解决这个问题：编写一个applier函数,作为围绕数据的闭包,它接受一个函数并将其应用于数据.然后,只需将该功能映射到功能集合上即可.

我还假设您的数据结构是可以使用multiprocessing.Array定义的.如果不是这样,您将必须以C样式设计数据结构,将其实现为ctypes结构数组(反之亦然),然后使用multiprocessing.sharedctypes东西.

我还将结果对象移到了刚刚传回的结果中.如果它们也很大并且需要共享,请使用相同的技巧使其可共享.

在继续进行此操作之前,您应该问自己是否确实需要共享数据.通过这种方式进行操作,您将花费80％的调试,性能调整等时间来添加和删除锁,使锁或多或少变得细粒度等等.如果您可以绕过传递不可变的数据结构,或处理文件,数据库或几乎任何其他替代方法,那么80％的代码可以用于其余的代码.

weixin_39734020

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 共享数据_在Python中以并行方式对共享数据执行大量计...

您无法使用Python中的线程(至少不是您可能正在使用的CPython实现)来有效地做到这一点. Global Interpreter Lock意味着,您希望获得的效率不是8个核中将近800％的效率,而是90％.但是,您可以使用单独的流程来执行此操作.标准库中内置了两个选项：concurrent.futures和multiprocessing.通常,期货在简单情况下更简单,通常更容易编写；通常,多...
复制链接

扫一扫