实习成长之路：关于ElasticSearch深度分页带来的思考，如何解决深度分页和跳页

最新推荐文章于 2024-04-27 14:45:58 发布

置顶

会写代码的花城

最新推荐文章于 2024-04-27 14:45:58 发布

阅读量3k

点赞数 3

分类专栏：实习踩坑之路 reids 并发文章标签： elasticsearch 搜索引擎分布式

本文链接：https://blog.csdn.net/qq_22155255/article/details/123569665

版权

在这里插入图片描述

问题引入

我们在平常使用ElasticSearch构建查询条件的时候一般用的都是from+size的方式进行分页查询，但是如果我们的页数太深/页面大小太大(from*size)>10000就会引发一个错误，我们将会得到一个错误
在这里插入图片描述
这是为什么呢？
因为ES的分页查询其实是这样来的
因为ElasticSeach的天生分布式的原因，我们的数据是分散在几个分片中的，而我们设置了from+size需要对全部数据进行查询，ES就以下面这种方式进行了查询

Query阶段

在这里插入图片描述

Client 发送一次搜索请求，node1 接收到请求，然后，node1 创建一个大小为 from + size的优先级队列用来存结果，我们管 node1 叫 coordinating node。
coordinating node将请求广播到涉及到的 shards，每个 shard 在内部执行搜索请求，然后，将结果存到内部的大小同样为 from + size 的优先级队列里，可以把优先级队列理解为一个包含 top N结果的列表。
每个 shard 把暂存在自身优先级队列里的数据返回给 coordinating node，coordinating node 拿到各个 shards 返回的结果后对结果进行一次合并，产生一个全局的优先级队列，存到自身的优先级队列里。

在上面的例子中，coordinating node 拿到(from + size) * 6条数据，然后合并并排序后选择前面的from + size条数据存到优先级队列，以便 fetch 阶段使用。