使用multiprocessing处理海量的es数据

本文介绍了一种使用Python的multiprocessing库来提高处理600万条Elasticsearch数据效率的方法。通过创建任务队列,将scroll_id在多进程中传递,避免了直接的多进程对ES的scroll操作,从而实现数据处理速度的提升。
摘要由CSDN通过智能技术生成

       最近在对大概600w的es数据进行处理,最开始使用的是单进程跑,一跑就是好几天,后面琢磨着要提高效率,于是开始思考如何在原有单进程基础scroll的基础上使用多进程处理es中Index的数据。由于我们不能起多个进程对es进行scroll操作,这块es对scroll的数量是有限制的,于是就琢磨着将第一个scroll存下来,放入一个任务队列中去,然后多个进程去读scroll然后将他们读到的scroll_id放入队列中,直到最后scroll结束整张表

基于上面的思考,于是结合之前的 es读取,进行了代码改造

https://blog.csdn.net/hixiaogui/article/details/115267635?spm=1001.2014.3001.5501

  这里我使用的是multiprocessing的python多进程框架

我们的流程是 

最终我们结合上图写出下面的代码

import elasticsearch
from multiprocessing import Process,Queue
import json
import time

def main_process(es,search_index,query,Q):
    if not es.indices.exsits(search_index):
        print("{} not exists in es".format(search_index))
        return None
    page = es.search(index=search_index,scrol
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值