知识点复习35 ElasticSearch 深分页

最新推荐文章于 2023-09-11 07:00:00 发布

kuaipao19950507

最新推荐文章于 2023-09-11 07:00:00 发布

阅读量336

点赞数

分类专栏：知识点复习 es，solr 搜索相关

本文链接：https://blog.csdn.net/kuaipao19950507/article/details/102217868

版权

知识点复习同时被 2 个专栏收录

53 篇文章 0 订阅

订阅专栏

es，solr 搜索相关

46 篇文章 11 订阅

订阅专栏

ElasticSearch - 解决ES的深分页问题 (游标 scroll)

ES为了避免深分页，不允许使用分页(from&size)查询10000条以后的数据，因此如果要查询第10000条以后的数据，要使用ES提供的 scroll(游标) 来查询

假设取的页数较大时(深分页)，如请求第20页，Elasticsearch不得不取出所有分片上的第1页到第20页的所有文档，并做排序，最终再取出from后的size条结果作为最终的返回值

假设你有16个分片，则需要在coordinate node汇总到 shards* (from+size)条记录，即需要16*(20+10)记录后做一次全局排序

所以，当索引非常非常大(千万或亿)，是无法使用from + size 做深分页的，分页越深则越容易OOM，即便不OOM，也很消耗CPU和内存资源

因此ES使用index.max_result_window:10000作为保护措施，即默认 from + size 不能超过10000，虽然这个参数可以动态修改，也可以在配置文件配置，但是最好不要这么做，应该改用ES游标来取得数据

scroll游标原理

可以把 scroll 理解为关系型数据库里的 cursor，因此，scroll 并不适合用来做实时搜索，而更适用于后台批处理任务，比如群发

scroll 具体分为初始化和遍历两步

初始化时将所有符合搜索条件的搜索结果缓存起来，可以想象成快照

在遍历时，从这个快照里取数据

也就是说，在初始化后对索引插入、删除、更新数据都不会影响遍历结果

游标可以增加性能的原因，是因为如果做深分页，每次搜索都必须重新排序，非常浪费，使用scroll就是一次把要用的数据都排完了，分批取出，因此比使用from+size还好

优化scoll，去掉排序

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

常见深度分页方式 from+size
es 默认采用的分页方式是 from+ size 的形式，在深度分页的情况下，这种使用方式效率是非常低的，比如

from = 5000, size=10， es 需要在各个分片上匹配排序并得到5000*10条有效数据，然后在结果集中取最后10条

数据返回，这种方式类似于mongo的 skip + size。

除了效率上的问题，还有一个无法解决的问题是，es 目前支持最大的 skip 值是 max_result_window ，默认

为 10000 。也就是当 from + size > max_result_window 时，es 将返回错误

最开始的时候是线上客户的es数据出现问题，当分页到几百页的时候，es 无法返回数据，此时为了恢复正常使用，我们采用了紧急规避方案，就是将 max_result_window 的值调至 50000

然后这种方式只能暂时解决问题，当es 的使用越来越多，数据量越来越大，深度分页的场景越来越复杂时，如何解决这种问题呢？

另一种分页方式 scroll
为了满足深度分页的场景，es 提供了 scroll 的方式进行分页读取。原理上是对某次查询生成一个游标 scroll_id ，后续的查询只需要根据这个游标去取数据，直到结果集中返回的 hits 字段为空，就表示遍历结束。scroll_id 的生成可以理解为建立了一个临时的历史快照，在此之后的增删改查等操作不会影响到这个快照的结果。

使用 curl 进行分页读取过程如下：

先获取第一个 scroll_id，url 参数包括 /index/_type/ 和 scroll，scroll 字段指定了scroll_id 的有效生存期，以分钟为单位，过期之后会被es 自动清理。如果文档不需要特定排序，可以指定按照文档创建的时间返回会使迭代更高效。
后续的文档读取上一次查询返回的scroll_id 来不断的取下一页，如果srcoll_id 的生存期很长，那么每次返回的 scroll_id 都是一样的，直到该 scroll_id 过期，才会返回一个新的 scroll_id。请求指定的 scroll_id 时就不需要 /index/_type 等信息了。每读取一页都会重新设置 scroll_id 的生存时间，所以这个时间只需要满足读取当前页就可以，不需要满足读取所有的数据的时间，1 分钟足以。

所有文档获取完毕之后，需要手动清理掉 scroll_id 。虽然es 会有自动清理机制，但是 srcoll_id 的存在会耗费大量的资源来保存一份当前查询结果集映像，并且会占用文件描述符。所以用完之后要及时清理。使用 es 提供的 CLEAR_API 来删除指定的 scroll_id
scroll + scan
当 scroll 的文档不需要排序时，es 为了提高检索的效率，在 2.0 版本提供了 scroll + scan 的方式。随后又在 2.1.0 版本去掉了 scan 的使用，直接将该优化合入了 scroll 中。由于moa 线上的 es 版本是2.3 的，所以只简单提一下。使用的 scan 的方式是指定 search_type=scan

search_after 的方式
上述的 scroll search 的方式，官方的建议并不是用于实时的请求，因为每一个 scroll_id 不仅会占用大量的资源（特别是排序的请求），而且是生成的历史快照，对于数据的变更不会反映到快照上。这种方式往往用于非实时处理大量数据的情况，比如要进行数据迁移或者索引变更之类的。那么在实时情况下如果处理深度分页的问题呢？es 给出了 search_after 的方式，这是在 >= 5.0 版本才提供的功能。

search_after 分页的方式和 scroll 有一些显著的区别，首先它是根据上一页的最后一条数据来确定下一页的位置，同时在分页请求的过程中，如果有索引数据的增删改查，这些变更也会实时的反映到游标上。

为了找到每一页最后一条数据，每个文档必须有一个全局唯一值，这种分页方式其实和目前 moa 内存中使用rbtree 分页的原理一样，官方推荐使用 _uid 作为全局唯一值，其实使用业务层的 id 也可以。