问题:Elasticsearch使用from和size实现分页查询时,数据量大于10000会报错:
我这里的数据量是达到了两万多。
原因:Elasticsearch默认对from+size的最大值进行了限制,为10000。
解决方法:这里给出两种解决方法。
第一种:修改Elasticsearch限制的默认最大值。(不推荐:在数据量大时,使用from+size方法查询性能会下降,对CPU和内存的消耗会非常巨大)
PUT { 索引名 }/_settings { "index":{ "max_result_window":{ 你想要的from+size最大值 } } }
第二种:使用scroll进行查询。(在查询第 y 页时,需要去Elasticsearch中查询 y 次)
①在查询第1页时,设置scroll的有效时间(即此次请求的有效时间),获取scroll_id。
POST { 索引名 }/_search?scroll=1m { "size": 20, "query": { { 查询条件 } } }
我这里设置的1分钟。
②将获取到scroll_id进行进行后面页数的查询。(发送请求次数为你想要的页数)
POST /_search/scroll { "scroll" : "1m", { 持续更新scroll_id的有效时间 } "scroll_id" : { 第1页查询时返回的scroll_id } }
③数据查询到上万条后,查询的时间还是得考虑的。如果不考虑排序的话,可以结合scan进行查询,提高查询效率,即在第1页查询的请求参数中添加 search_type=scan 即可。
POST { 索引名 }/_search?search_type=scan&scroll=1m { "size": 20, "query": { { 查询条件 } } }
这里贴出Java代码的实现:
// 第1页查询
SearchResponse scrollResp = query
.setScroll(new TimeValue(60000))
.setSize(pager.getMax())
.execute().actionGet();
// 第2页开始
for (int i = 2; i <= pager.getPage(); i++) {
scrollResp = client
.prepareSearchScroll(scrollResp.getScrollId())
.setScroll(new TimeValue(60000))
.execute().actionGet();
}