在Elasticsearch老版本中做数据遍历一般使用Scroll-Scan。Scroll是先做一次初始化搜索把所有符合搜索条件的结果缓存起来生成一个快照,然后持续地、批量地从快照里拉取数据直到没有数据剩下。而这时对索引数据的插入、删除、更新都不会影响遍历结果,因此scroll 并不适合用来做实时搜索。Scan是搜索类型,告诉Elasticsearch不用对结果集进行排序,只要分片里还有结果可以返回,就返回一批结果。
在5.X版本中SearchType.SCAN已经被去掉了。根据官方文档说明,使用“_doc”做排序可以达到更高性能的Scroll查询效果,这样可以遍历所有文档而不需要进行排序。
JAVA代码示例:
public class ScrollTest2 {
public static void main(String[] args) {
JSONObject resultObject = null;
Client esClient = ESClientHelper.getInstance().getClient();
SearchResponse searchResponse = esClient.prepareSearch("index")
.setTypes("type")
.setQuery(QueryBuilders.matchAllQuery())
.addSort(SortBuilders.fieldSort("_doc"))
.setSize(30)
// 这个游标维持多长时间
.setScroll(TimeValue.timeValueMinutes(8)).execute().actionGet();
System.out.println(searchResponse.getScrollId());
System.out.println(searchResponse.getHits().getTotalHits());
System.out.println(searchResponse.getHits().hits().length);
for (SearchHit hit : searchResponse.getHits()) {
String json = hit.getSourceAsString();
try {
resultObject = new JSONObject(json);
} catch (JSONException e) {
e.printStackTrace();
}
}
System.out.println("------------------------------");
// 使用上次的scrollId继续访问
ScrollTest2 scroll = new ScrollTest2();
do{
int num = scroll.scanData(esClient,searchResponse.getScrollId());
if(num ==0) break;
}while(true);
System.out.println("------------------------------END");
}
private int scanData (Client esClient, String scrollId){
SearchResponse searchResponse = esClient.prepareSearchScroll(scrollId)
.setScroll(TimeValue.timeValueMinutes(8)).execute().actionGet();
System.out.println(searchResponse.getScrollId());
System.out.println(searchResponse.getHits().getTotalHits());
int num = searchResponse.getHits().hits().length;
System.out.println(searchResponse.getHits().hits().length);
JSONObject resultObject = null;
for (SearchHit hit : searchResponse.getHits()) {
String json = hit.getSourceAsString();
try {
resultObject = new JSONObject(json);
} catch (JSONException e) {
e.printStackTrace();
}
}
return num;
}
}
附:搜索类型(SearchType)介绍
在Elasticsearch5做查询时,可以指定搜索类型:QUERY_THEN_FETCH、DFS_QUERY_THEN_FETCH。
QUERY_THEN_FETCH是默认的搜索方式,这种搜索方式大概分两个步骤,第一步,先向所有的分片发出请求,各分片只返回排序和排名相关的信息(注意,不包括文档document),然后按照各分片返回的分数进行重新排序和排名,取前size个文档。然后进行第二步,去相关的分片中取document。
DFS_QUERY_THEN_FETCH类似于QUERY_THEN_FETCH,多了一个初始化散发(initial scatter)步骤。初始化散发其实就是在进行真正的查询之前,先把各个分片的词频率和文档频率收集一下,然后进行词搜索的时候,各分片依据全局的词频率和文档频率进行搜索和排名,目的是提高搜索的精度。