在Elasticsearch老版本中做数据遍历一般使用Scroll-Scan。Scroll是先做一次初始化搜索把所有符合搜索条件的结果缓存起来生成一个快照,然后持续地、批量地从快照里拉取数据直到没有数据剩下。而这时对索引数据的插入、删除、更新都不会影响遍历结果,因此scroll 并不适合用来做实时搜索。Scan是搜索类型,告诉Elasticsearch不用对结果集进行排序,只要分片里还有结果可以返回,就返回一批结果。
在5.X版本中SearchType.SCAN已经被去掉了。根据官方文档说明,使用“_doc”做排序可以达到更高性能的Scroll查询效果,这样可以遍历所有文档而不需要进行排序。
public class ScrollTest {
public static void main(String[] args) {
JSONObject resultObject = null;
Client esClient = ESClientHelper.getInstance().getClient();
SearchResponse searchResponse = esClient.prepareSearch("index") //设置索引名
.setTypes("type") //设置索引类型
.setQuery(QueryBuilders.matchAllQuery())
.addSort(SortBuilders.fieldSort("_doc"))
.setSize(30)
// 这个游标维持多长时间
.setScroll(TimeValue.timeValueMinutes(8)).execute().actionGet();
System.out.println(searchResponse.getScrollId());
System.out.println(searchResponse.getHits().getTotalHits());
System.out.println(searchResponse.getHits().hits().length);
for (SearchHit hit : searchResponse.getHits()) {
String json = hit.getSourceAsString();
try {
resultObject = new JSONObject(json);
} catch (JSONException e) {
e.printStackTrace();
}
}
// 使用上次的scrollId继续访问
ScrollTest2 scroll = new ScrollTest2();
do{
int num = scroll.scanData(esClient,searchResponse.getScrollId());
if(num ==0) break;
}while(true);
}
private int scanData (Client esClient, String scrollId){
SearchResponse searchResponse = esClient.prepareSearchScroll(scrollId)
.setScroll(TimeValue.timeValueMinutes(8)).execute().actionGet();
System.out.println(searchResponse.getScrollId());
System.out.println(searchResponse.getHits().getTotalHits());
int num = searchResponse.getHits().hits().length;
System.out.println(searchResponse.getHits().hits().length);
JSONObject resultObject = null;
for (SearchHit hit : searchResponse.getHits()) {
String json = hit.getSourceAsString();
try {
resultObject = new JSONObject(json);
} catch (JSONException e) {
e.printStackTrace();
}
}
return num;
}
}