使用multiprocessing处理海量的es数据

侠客行-

已于 2024-07-27 21:57:28 修改

阅读量249

点赞数

分类专栏： elasticseach 文章标签：多进程 elasticsearch python

于 2021-06-28 19:33:39 首次发布

本文链接：https://blog.csdn.net/hixiaogui/article/details/118310089

版权

elasticseach 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文介绍了一种使用Python的multiprocessing库来提高处理600万条Elasticsearch数据效率的方法。通过创建任务队列，将scroll_id在多进程中传递，避免了直接的多进程对ES的scroll操作，从而实现数据处理速度的提升。

摘要由CSDN通过智能技术生成

最近在对大概600w的es数据进行处理，最开始使用的是单进程跑，一跑就是好几天，后面琢磨着要提高效率，于是开始思考如何在原有单进程基础scroll的基础上使用多进程处理es中Index的数据。由于我们不能起多个进程对es进行scroll操作，这块es对scroll的数量是有限制的，于是就琢磨着将第一个scroll存下来，放入一个任务队列中去，然后多个进程去读scroll然后将他们读到的scroll_id放入队列中，直到最后scroll结束整张表。

基于上面的思考，于是结合之前的 es读取，进行了代码改造

使用python读取elasticsearch的index的所有数据_python 获取elasticsearch的index所有行-CSDN博客

这里我使用的是multiprocessing的python多进程框架

我们的流程是

最终我们结合上图写出下面的代码

import elasticsearch
from multiprocessing import Process,Queue
import json
import time

def main_process(es,search_index,query,Q):
    if not es.indices.exsits(search_index):
        print("{} not exists in es".format(search_index))
        return None
    page = es.search(index=search_index,scroll='60m',size=100)
    scroll_id = page['_scroll_id']
    scroll_size = page['hits']['total']['value']
    if scroll_size == 0:
        return None
    Q.put(scroll_id)
    for each in page['hits']['hits']:
        func(es,each)
    print("main process finish,Queue empty:",Q.empty())
    return Q.empty()

def worker_process(es,Q):
    scorll_size = 1
    while True and scoll_size>0:
        if Q.empty():
            print('wait other error')
            time.sleep(1)
            continue
                page = es.scroll(scoll_id=scroll_id,scroll="20m")
        scroll_id = page['_scroll_id']
        Q.put(scroll_id)
        scroll_size = len(page['hits']['hits'])
        for  each in page['hits']['hits']:
            func(es,each)
    print('finish!')

if __name__== "__main__":
    PROCESS_NUM = int(sys.argv[1])
    Q = Queue
    query = {

    }
    es = elasticsearch(hosts=["ip:port"])
    right = main_process(es,search_index,query,Q)
    if right:
        sys.exit(-1)

    plist = []
    for k in range(RPROCESS_NUM):
        plist.append(Process(target=es_func,Q))
    for p in plist:
        p.start()

    for p in plist:
        p.join()

侠客行-

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用multiprocessing处理海量的es数据

最近在对大概600w的es数据进行处理，最开始使用的是单进程跑，一跑就是好几天，后面琢磨着要提高效率，于是开始思考如何在原有单进程基础scroll的基础上使用多进程处理es中Index的数据。由于我们不能起多个进程对es进行scroll操作，这块es对scroll的数量是有限制的，于是就琢磨着将第一个scroll存下来，放入一个任务队列中去，然后多个进程去读scroll然后将他们读到的scroll_id放入队列中，直到最后scroll结束整张表。基于上面的思考，于是结合之前的 es读取，进...
复制链接

扫一扫

专栏目录