elasticsearch-利用游标查询 'Scroll'来做分页查询

最新推荐文章于 2024-03-10 14:11:38 发布

豆不女

最新推荐文章于 2024-03-10 14:11:38 发布

阅读量1.5w

点赞数 1

分类专栏： elasticsearch

elasticsearch 专栏收录该内容

34 篇文章 1 订阅

订阅专栏

游标查询 'Scroll'

scroll 查询可以用来对 Elasticsearch 有效地执行大批量的文档查询，而又不用付出深度分页那种代价。

游标查询允许我们先做查询初始化，然后再批量地拉取结果。这有点儿像传统数据库中的 cursor 。

游标查询会取某个时间点的快照数据。查询初始化之后索引上的任何变化会被它忽略。它通过保存旧的数据文件来实现这个特性，结果就像保留初始化时的索引 '视图' 一样。

深度分页的代价根源是结果集全局排序，如果去掉全局排序的特性的话查询结果的成本就会很低。游标查询用字段 _doc 来排序。这个指令让 Elasticsearch 仅仅从还有结果的分片返回下一批结果。

启用游标查询可以通过在查询的时候设置参数 scroll 的值为我们期望的游标查询的过期时间。游标查询的过期时间会在每次做查询的时候刷新，所以这个时间只需要足够处理当前批的结果就可以了，而不是处理查询结果的所有文档的所需时间。这个过期时间的参数很重要，因为保持这个游标查询窗口需要消耗资源，所以我们期望如果不再需要维护这种资源就该早点儿释放掉。设置这个超时能够让 Elasticsearch 在稍后空闲的时候自动释放这部分资源。

GET /old_index/_search?scroll=1m (1)
{
    "query": { "match_all": {}},
    "sort" : ["_doc"], (2)
    "size":  1000
}

保持游标查询窗口一分钟。
关键字 _doc 是最有效的排序顺序。

这个查询的返回结果包括一个字段 _scroll_id，它是一个base64编码的长字符串。现在我们能传递字段 _scroll_id 到 _search/scroll 查询接口获取下一批结果：

GET /_search/scroll
{
    "scroll": "1m", (1)
    "scroll_id" : "cXVlcnlUaGVuRmV0Y2g7NTsxMDk5NDpkUmpiR2FjOFNhNnlCM1ZDMWpWYnRROzEwOTk1OmRSamJHYWM4U2E2eUIzVkMxalZidFE7MTA5OTM6ZFJqYkdhYzhTYTZ5QjNWQzFqVmJ0UTsxMTE5MDpBVUtwN2lxc1FLZV8yRGVjWlI2QUVBOzEwOTk2OmRSamJHYWM4U2E2eUIzVkMxalZidFE7MDs="
}

注意再次设置游标查询过期时间为一分钟。

这个游标查询返回的下一批结果。尽管我们指定字段 size 的值为1000，我们有可能取到超过这个值数量的文档。当查询的时候，字段 size 作用于单个分片，所以每个批次实际返回的文档数量最大为 size * number_of_primary_shards 。

def query_Data(self,mindex,mtype,mstr,msize=20):
        '''查询数据库中指定表所有字段出现的值
        :mindex 查询的数据库
        :mtype 查询的数据库表
        :mstr 匹配的字段
        :mfrom 返回的起始位置
        :msize 需要查询的总条数
        return 返回一个dict
        '''
        if not Ela.es:
            return False
        if not (mindex and mtype and mstr):
            return False
        data=[]
        try:
            querydata = Ela.es.search(index=mindex,doc_type=mtype,scroll='5m',timeout='3s',\
                        body={"query": {"bool": {"must": [{"query_string": {"default_field": "_all","query": mstr}}]}},"size": msize})
            mdata = querydata.get("hits").get("hits")
            if not mdata:
                return -1 #没有查询到数据
            #解析返回的值
            data = [d.get("_source") for d in mdata]
            sid = querydata['_scroll_id']
            while True:
                rs = Ela.es.scroll(scroll_id=sid,scroll='10s')
                temp = rs.get("hits").get("hits")
                if not temp:
                    break
                data += [d.get("_source") for d in temp]
            logger.info("共查询到: %d条数据"%data.__len__())
            return data
        except Exception as ex:
            logger.warnning("Elasticsearch数据库查询发生异常"+str(ex))
            return False

豆不女

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
elasticsearch-利用游标查询 'Scroll'来做分页查询

游标查询 'Scroll'scroll 查询可以用来对 Elasticsearch 有效地执行大批量的文档查询，而又不用付出深度分页那种代价。游标查询允许我们先做查询初始化，然后再批量地拉取结果。这有点儿像传统数据库中的 cursor 。游标查询会取某个时间点的快照数据。查询初始化之后索引上的任何变化会被它忽略。它通过保存旧的数据文件来实现这个特性，结果就
复制链接

扫一扫