使用multiprocessing处理海量的es数据

本文介绍了一种使用Python的multiprocessing库来提高处理600万条Elasticsearch数据效率的方法。通过创建任务队列,将scroll_id在多进程中传递,避免了直接的多进程对ES的scroll操作,从而实现数据处理速度的提升。
摘要由CSDN通过智能技术生成

       最近在对大概600w的es数据进行处理,最开始使用的是单进程跑,一跑就是好几天,后面琢磨着要提高效率,于是开始思考如何在原有单进程基础scroll的基础上使用多进程处理es中Index的数据。由于我们不能起多个进程对es进行scroll操作,这块es对scroll的数量是有限制的,于是就琢磨着将第一个scroll存下来,放入一个任务队列中去,然后多个进程去读scroll然后将他们读到的scroll_id放入队列中,直到最后scroll结束整张表

基于上面的思考,于是结合之前的 es读取,进行了代码改造

使用python读取elasticsearch的index的所有数据_python 获取elasticsearch的index所有行-CSDN博客

  这里我使用的是multiprocessing的python多进程框架

我们的流程是 

最终我们结合上图写出下面的代码

import elasticsearch
from multiprocessing import Process,Queue
import json
import time

def main_process(es,search_index,query,Q):
    if not es.indices.exsits(search_index):
        print("{} not exists in es".format(search_index))
        return None
    page = es.search(index=search_index,scroll='60m',size=100)
    scroll_id = page['_scroll_id']
    scroll_size = page['hits']['total']['value']
    if scroll_size == 0:
        return None
    Q.put(scroll_id)
    for each in page['hits']['hits']:
        func(es,each)
    print("main process finish,Queue empty:",Q.empty())
    return Q.empty()

def worker_process(es,Q):
    scorll_size = 1
    while True and scoll_size>0:
        if Q.empty():
            print('wait other error')
            time.sleep(1)
            continue
                page = es.scroll(scoll_id=scroll_id,scroll="20m")
        scroll_id = page['_scroll_id']
        Q.put(scroll_id)
        scroll_size = len(page['hits']['hits'])
        for  each in page['hits']['hits']:
            func(es,each)
    print('finish!')

if __name__== "__main__":
    PROCESS_NUM = int(sys.argv[1])
    Q = Queue
    query = {

    }
    es = elasticsearch(hosts=["ip:port"])
    right = main_process(es,search_index,query,Q)
    if right:
        sys.exit(-1)

    plist = []
    for k in range(RPROCESS_NUM):
        plist.append(Process(target=es_func,Q))
    for p in plist:
        p.start()

    for p in plist:
        p.join()

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值