elasticseach
侠客行-
这个作者很懒,什么都没留下…
展开
-
使用multiprocessing处理海量的es数据
最近在对大概600w的es数据进行处理,最开始使用的是单进程跑,一跑就是好几天,后面琢磨着要提高效率,于是开始思考如何在原有单进程基础scroll的基础上使用多进程处理es中Index的数据。由于我们不能起多个进程对es进行scroll操作,这块es对scroll的数量是有限制的,于是就琢磨着将第一个scroll存下来,放入一个任务队列中去,然后多个进程去读scroll然后将他们读到的scroll_id放入队列中,直到最后scroll结束整张表。 基于上面的思考,于是结合之前的 es读取,进...原创 2021-06-28 19:33:39 · 272 阅读 · 0 评论 -
使用python读取elasticsearch的index的所有数据
使用python读取elasticsearch的index的所有数据 思路通常使用from+size组合可以便利一定数据量(index.max_result_window),超过限制就es就报错了,想要读取超过index.max_result_window的数据就需要使用scroll进行翻页操作,scroll相当于使用了一个接口自身维护的以及游标(下标)去es中获取数据,每次scroll都会返回下一次scoll的id地址,直到最终hits.hits长度为0(表示已读取当前Index的数据) search原创 2021-03-27 17:04:41 · 2386 阅读 · 0 评论