最近在对大概600w的es数据进行处理,最开始使用的是单进程跑,一跑就是好几天,后面琢磨着要提高效率,于是开始思考如何在原有单进程基础scroll的基础上使用多进程处理es中Index的数据。由于我们不能起多个进程对es进行scroll操作,这块es对scroll的数量是有限制的,于是就琢磨着将第一个scroll存下来,放入一个任务队列中去,然后多个进程去读scroll然后将他们读到的scroll_id放入队列中,直到最后scroll结束整张表。
基于上面的思考,于是结合之前的 es读取,进行了代码改造
https://blog.csdn.net/hixiaogui/article/details/115267635?spm=1001.2014.3001.5501
这里我使用的是multiprocessing的python多进程框架
我们的流程是
最终我们结合上图写出下面的代码
import elasticsearch
from multiprocessing import Process,Queue
import json
import time
def main_process(es,search_index,query,Q):
if not es.indices.exsits(search_index):
print("{} not exists in es".format(search_index))
return None
page = es.search(index=search_index,scrol