【大数据----ElasticSearch】Elasticsearch 深分页问题以及解决方法

本文主要参考:

1、https://www.elastic.co/guide/en/elasticsearch/reference/current/search-request-scroll.html

2、《Elasticsearch权威指南》

 

好,下面上货。

 

首先介绍一下,什么是深分页问题。

当使用elasticsearch进行分页查询的时候我们使用的语法是这样的:

POST xytest/sutdent/_search
{
  "from": 0,
  "size": 2
}

 

这样的查询在10000-50000条数据(1000到5000页)以内的时候还是可以的,但是如果数据过多的话,就会出现深分页问题。这个问题和elasticsearch的内部原理有关。比如,现在要取第5001页的数据,在分页的时候,elasticsearch需要首先在每一个节点上取出50020的数据,然后和每一个节点的所有数据进行排序,取出排序后在50010到50020的数据,然后返回。这样随着数据量的增大,每次分页时排序的开销会越来越大。

 

为了解决上面的问题,elasticsearch提出了一个scroll滚动的方式,这个滚动的方式原理就是通过每次查询后,返回一个scroll_id。根据这个scroll_id 进行下一页的查询。可以把这个scroll_id理解为通常关系型数据库中的游标。但是,这种scroll方式的缺点是不能够进行反复查询,也就是说,只能进行下一页,不能进行上一页。

 

经过分析,如果数据达到了50000条以上,那么用户基本上是不会考虑每条都去看的,用户需要的是最后对数据分析处理后的结果。而如果小于50000条的时候我们可以使用from size的方式进行分页的查询。那么这种方式存在是为了什么情景呢。应该是为了分批次的检索所有数据。

 

下面,介绍一下如何使用这种scroll的方式进行分页查询。

我们的环境里一共有6条数据,我们每次取出4条。

 

1、首先取出前4条,并且得到scroll_id(这里的3m代表的是持续滚动时间,如果过了3分钟,还没有查询下一页,那么这个scroll_id就会失效)。

POST /xytest/sutdent/_search?scroll=3m
{
    "size": 4
}

 

再次查询下一页,注意,这里查询时不需要指定index,只需要指定scroll_id和本次的持续滚动时间。

POST /_search/scroll
{
    "scroll" : "3m",
    "scroll_id":"DnF1ZXJ5VGhlbkZldGNoBQAAAAAAAAueFjZoLTd3UEptUXFXR2Z6Nm5iZ3FqalEAAAAAAAALnBY2aC03d1BKbVFxV0dmejZuYmdxampRAAAAAAAAC58WNmgtN3dQSm1RcVdHZno2bmJncWpqUQAAAAAAAAudFjZoLTd3UEptUXFXR2Z6Nm5iZ3FqalEAAAAAAAALoBY2aC03d1BKbVFxV0dmejZuYmdxampR"
}

 

发现这次只有两条数据,我们再次根据返回的scroll_id查询

POST /_search/scroll
{
    "scroll" : "3m",
    "scroll_id":"DnF1ZXJ5VGhlbkZldGNoBQAAAAAAAAueFjZoLTd3UEptUXFXR2Z6Nm5iZ3FqalEAAAAAAAALnBY2aC03d1BKbVFxV0dmejZuYmdxampRAAAAAAAAC58WNmgtN3dQSm1RcVdHZno2bmJncWpqUQAAAAAAAAudFjZoLTd3UEptUXFXR2Z6Nm5iZ3FqalEAAAAAAAALoBY2aC03d1BKbVFxV0dmejZuYmdxampR"
}

 

已经没有数据了,说明已经滚动到最后了。

这个时候我们可以删除这个scroll_id。

使用如下方法:

DELETE /_search/scroll/DnF1ZXJ5VGhlbkZldGNoBQAAAAAAAAueFjZoLTd3UEptUXFXR2Z6Nm5iZ3FqalEAAAAAAAALnBY2aC03d1BKbVFxV0dmejZuYmdxampRAAAAAAAAC58WNmgtN3dQSm1RcVdHZno2bmJncWpqUQAAAAAAAAudFjZoLTd3UEptUXFXR2Z6Nm5iZ3FqalEAAAAAAAALoBY2aC03d1BKbVFxV0dmejZuYmdxampR

 

 

也可以删除所有scroll_id:

DELETE /_search/scroll/_all

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值