python多机器并行_如何在多台机器上运行芹菜工人并行处理一组对象？

最新推荐文章于 2022-11-29 15:12:48 发布

weixin_39520988

最新推荐文章于 2022-11-29 15:12:48 发布

阅读量181

点赞数

文章标签： python多机器并行

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39520988/article/details/113510727

版权

我在mongoDB集合中有几十万个文档可访问，这些文档遵循一个名为MyDoc的MongoEngine模式。每个文档都要运行一些东西(让我们称之为“我的操作”)。另外，我的操作需要(只读取，不改变)一个名为data_dict的有序dict，通过create_data_dict函数构造。我希望能够通过芹菜工人并行地运行我的操作。在

设置包括django，mongo，mongoengine和芹菜。在

选项1：@celery.task()

def my_operation(my_doc_list):

data_dict = create_data_dict()

for doc in my_doc_list:

do_something_to_doc(data_dict, doc)

doc.save()

def create_data_dict():

#blah blah blah

return data_dict

#So I run everything like this:

batch_size = len(MyDoc.objects)/no_of_celery_workers

for b in xrange(0, len(MyDoc.objects), batch_size):

my_operation.delay(MyDoc.objects[b:b+batch_size])

选项2:my_操作接受data-tu-dict和MyDoc实例

^{pr2}$

选项3：@celery.task()

def my_operation(my_doc):

data_dict = create_data_dict()

do_something_to_doc(data_dict, my_doc)

my_doc.save()

def create_data_dict():

#blah blah blah

return data_dict

#So I run everything like this:

celery.group([my_operation.s(my_doc) for my_doc in MyDoc.objects]).apply_async()

选项4：@celery.task()

def my_operation(my_doc):

data_dict = get_data_dict()

do_something_to_doc(data_dict, my_doc)

my_doc.save()

def create_data_dict():

#blah blah blah

return data_dict

def get_data_dict():

data_dict = cache.get("data_dict")

if data_dict is None:

data_dict = create_data_dict()

cache.set("data_dict", data_dict)

return data_dict

#So I run everything like this:

celery.group([my_operation.s(my_doc) for my_doc in MyDoc.objects]).apply_async()

如果选项1起作用，我可能不会问这个问题，但遗憾的是，我不能将queryset的响应片或querysets本身传递给芹菜工人，因为它们不可腌制。这就是回溯的意思。在

有了Option2，我会在每个任务中传递数据字典，这听起来不太吸引人。如果我在多台机器上运行celery workers，(我确实打算这样做)数据字典，基本上只需要传递一次，就会毫无价值地消耗大量网络。在

在Option3的情况下，每个文档都会重新创建数据字典，这似乎是对处理能力的巨大浪费。在

选项4：我使用缓存来备份数据字典，而不是重新计算或与每个文档一起重新传输。这听起来是最好的主意，但有一个陷阱。下一次我想对所有MyDocs执行“u”操作时，我希望重新计算数据字典，而不管它是否在缓存中。有没有办法做到这一点？在

问题是：

最好的办法是什么？在

weixin_39520988

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python多机器并行_如何在多台机器上运行芹菜工人并行处理一组对象？

我在mongoDB集合中有几十万个文档可访问，这些文档遵循一个名为MyDoc的MongoEngine模式。每个文档都要运行一些东西(让我们称之为“我的操作”)。另外，我的操作需要(只读取，不改变)一个名为data_dict的有序dict，通过create_data_dict函数构造。我希望能够通过芹菜工人并行地运行我的操作。在设置包括django，mongo，mongoengine和芹菜。在选项1...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。