java 大数据遍历_Elasticsearch5 JAVA API数据遍历

最新推荐文章于 2024-04-21 20:19:28 发布

马马Mona

最新推荐文章于 2024-04-21 20:19:28 发布

阅读量462

点赞数

文章标签： java 大数据遍历

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35912261/article/details/114813242

版权

在Elasticsearch老版本中做数据遍历一般使用Scroll-Scan。Scroll是先做一次初始化搜索把所有符合搜索条件的结果缓存起来生成一个快照，然后持续地、批量地从快照里拉取数据直到没有数据剩下。而这时对索引数据的插入、删除、更新都不会影响遍历结果，因此scroll 并不适合用来做实时搜索。Scan是搜索类型，告诉Elasticsearch不用对结果集进行排序，只要分片里还有结果可以返回，就返回一批结果。

在5.X版本中SearchType.SCAN已经被去掉了。根据官方文档说明，使用“_doc”做排序可以达到更高性能的Scroll查询效果，这样可以遍历所有文档而不需要进行排序。

JAVA代码示例：

public class ScrollTest2 {

public static void main(String[] args) {

JSONObject resultObject = null;

Client esClient = ESClientHelper.getInstance().getClient();

SearchResponse searchResponse = esClient.prepareSearch("index")

.setTypes("type")

.setQuery(QueryBuilders.matchAllQuery())

.addSort(SortBuilders.fieldSort("_doc"))

.setSize(30)

// 这个游标维持多长时间

.setScroll(TimeValue.timeValueMinutes(8)).execute().actionGet();

System.out.println(searchResponse.getScrollId());

System.out.println(searchResponse.getHits().getTotalHits());

System.out.println(searchResponse.getHits().hits().length);

for (SearchHit hit : searchResponse.getHits()) {

String json = hit.getSourceAsString();

try {

resultObject = new JSONObject(json);

} catch (JSONException e) {

e.printStackTrace();

}

}

System.out.println("------------------------------");

// 使用上次的scrollId继续访问

ScrollTest2 scroll = new ScrollTest2();

do{

int num = scroll.scanData(esClient,searchResponse.getScrollId());

if(num ==0) break;

}while(true);

System.out.println("------------------------------END");

}

private int scanData (Client esClient, String scrollId){

SearchResponse searchResponse = esClient.prepareSearchScroll(scrollId)

.setScroll(TimeValue.timeValueMinutes(8)).execute().actionGet();

System.out.println(searchResponse.getScrollId());

System.out.println(searchResponse.getHits().getTotalHits());

int num = searchResponse.getHits().hits().length;

System.out.println(searchResponse.getHits().hits().length);

JSONObject resultObject = null;

for (SearchHit hit : searchResponse.getHits()) {

String json = hit.getSourceAsString();

try {

resultObject = new JSONObject(json);

} catch (JSONException e) {

e.printStackTrace();

}

}

return num;

}

}

附：搜索类型(SearchType)介绍

在Elasticsearch5做查询时，可以指定搜索类型：QUERY_THEN_FETCH、DFS_QUERY_THEN_FETCH。

QUERY_THEN_FETCH是默认的搜索方式，这种搜索方式大概分两个步骤，第一步，先向所有的分片发出请求，各分片只返回排序和排名相关的信息(注意，不包括文档document)，然后按照各分片返回的分数进行重新排序和排名，取前size个文档。然后进行第二步，去相关的分片中取document。

DFS_QUERY_THEN_FETCH类似于QUERY_THEN_FETCH，多了一个初始化散发(initial scatter)步骤。初始化散发其实就是在进行真正的查询之前，先把各个分片的词频率和文档频率收集一下，然后进行词搜索的时候，各分片依据全局的词频率和文档频率进行搜索和排名，目的是提高搜索的精度。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。