最近在对大概600w的es数据进行处理,最开始使用的是单进程跑,一跑就是好几天,后面琢磨着要提高效率,于是开始思考如何在原有单进程基础scroll的基础上使用多进程处理es中Index的数据。由于我们不能起多个进程对es进行scroll操作,这块es对scroll的数量是有限制的,于是就琢磨着将第一个scroll存下来,放入一个任务队列中去,然后多个进程去读scroll然后将他们读到的scroll_id放入队列中,直到最后scroll结束整张表。
基于上面的思考,于是结合之前的 es读取,进行了代码改造
使用python读取elasticsearch的index的所有数据_python 获取elasticsearch的index所有行-CSDN博客
这里我使用的是multiprocessing的python多进程框架
我们的流程是
最终我们结合上图写出下面的代码
import elasticsearch
from multiprocessing import Process,Queue
import json
import time
def main_process(es,search_index,query,Q):
if not es.indices.exsits(search_index):
print("{} not exists in es".format(search_index))
return None
page = es.search(index=search_index,scroll='60m',size=100)
scroll_id = page['_scroll_id']
scroll_size = page['hits']['total']['value']
if scroll_size == 0:
return None
Q.put(scroll_id)
for each in page['hits']['hits']:
func(es,each)
print("main process finish,Queue empty:",Q.empty())
return Q.empty()
def worker_process(es,Q):
scorll_size = 1
while True and scoll_size>0:
if Q.empty():
print('wait other error')
time.sleep(1)
continue
page = es.scroll(scoll_id=scroll_id,scroll="20m")
scroll_id = page['_scroll_id']
Q.put(scroll_id)
scroll_size = len(page['hits']['hits'])
for each in page['hits']['hits']:
func(es,each)
print('finish!')
if __name__== "__main__":
PROCESS_NUM = int(sys.argv[1])
Q = Queue
query = {
}
es = elasticsearch(hosts=["ip:port"])
right = main_process(es,search_index,query,Q)
if right:
sys.exit(-1)
plist = []
for k in range(RPROCESS_NUM):
plist.append(Process(target=es_func,Q))
for p in plist:
p.start()
for p in plist:
p.join()