es查询大批量数据的”可能方案”
当使用es来请求大批量数据时,通常有三种办法,其一:直接查询获取全量数据;其二:使用setFrom以及setSize解决;其三:使用es自带的scroll分页支持
方案评估
对于上述方案的评估,此处建议大家可以先看看这篇文章 Elasticsearch 搜索内部执行原理
方案选择
经上述评估,显然,最终采取scroll进行分页实现,分页后的数据处理有两种方式可供处理。第一种,获取分页后的数据再聚合;第二种,直接处理分页后的数据。对于第一种,如若聚合后的数据有几十万、上百万,乃至更多,那势必会导致系统内存飙升,jvm老年代可能会被迅速打满,进而促发full gc, 若full gc后仍得不到可用空间,可能会造成oom,服务直接不可用。所以第一种处理方式是存在风险的,推荐使用第二种
核心代码
假定各位maven已配置好,es处于可用状态
使用scroll分页主要分为2步,第1步,初始化查询,获取scrollI