Elasticsearch分页查询From&Size VS scroll

对于ES来说,按照一般的查询流程来说,如果我想查询数据:

  • 1 客户端请求发给某个节点
  • 2 节点转发给个个分片,查询每个分片上的前10条
  • 3 结果返回给节点,整合数据,提取前10条
  • 4 返回给请求客户端

这时,你查询的的数据可以获取整个条数,但是返回的只是默认的10条,所以这个时候就需要考虑使用分页查询。

对于数据量,博主在800万条的时候,用From&Size也是没有问题的,但是博主有一个操作需要查询一个大概1亿7千万条的数据,这个时候用From&Size在2千万条的时候就会出错,后来查了一下From&Size在大数据量下性能下降的厉害,导致一些错误出现,所以本博主推荐,能用scroll就用scroll。

下面给出2中使用方式的java代码:

首先呢,需要在java中引入elasticsearch-jar,比如使用maven:

<dependency>
    <groupId>org.elasticsearch</groupId>
    <artifactId>elasticsearch</artifactId>
    <version>2.3.2</version>
</dependency>

然后初始化一个client对象:

private static TransportClient client;
    private static String INDEX = "index_name";
    private static String TYPE = "type_name";
    
    public static TransportClient init(){
        Settings settings = ImmutableSettings.settingsBuilder()
                 .put("client.transport.sniff", true)
                 .put("cluster.name", "cluster_name")
                 .build();
        client = new TransportClient(settings).addTransportAddress(new InetSocketTransportAddress("localhost",9300));
        return client;
    }
    public static void main(String[] args) {
        TransportClient client = init();
        //这样就可以使用client执行查询了
    }

然后就是创建两个查询过程了 ,下面是from-size分页的执行代码:

System.out.println("from size 模式启动!");
Date begin = new Date();
long count = client.prepareCount(INDEX).setTypes(TYPE).execute().actionGet().getCount();
SearchRequestBuilder requestBuilder = client.prepareSearch(INDEX).setTypes(TYPE).setQuery(QueryBuilders.matchAllQuery());
for(int i=0,sum=0; sum<count; i++){
    SearchResponse response = requestBuilder.setFrom(i).setSize(50000).execute().actionGet();
    sum += response.getHits().hits().length;
    System.out.println("总量"+count+" 已经查到"+sum);
}
Date end = new Date();
System.out.println("耗时: "+(end.getTime()-begin.getTime()));

下面是scroll分页的执行代码,注意啊!scroll里面的size是相对于每个分片来说的,所以实际返回的数量是:分片的数量*size

System.out.println("scroll 模式启动!");
begin = new Date();
SearchResponse scrollResponse = client.prepareSearch(INDEX)
    .setSearchType(SearchType.SCAN).setSize(10000).setScroll(TimeValue.timeValueMinutes(1)) 
    .execute().actionGet();  
count = scrollResponse.getHits().getTotalHits();//第一次不返回数据
for(int i=0,sum=0; sum<count; i++){
    scrollResponse = client.prepareSearchScroll(scrollResponse.getScrollId())  
        .setScroll(TimeValue.timeValueMinutes(8))  
    .execute().actionGet();
    sum += scrollResponse.getHits().hits().length;
    System.out.println("总量"+count+" 已经查到"+sum);
}
end = new Date();
System.out.println("耗时: "+(end.getTime()-begin.getTime()));

在这里值得一提的是:ES的CURD操作,如果单条数据大量数据效率一般都比较低,所以要使用bulk操作,例如如下操作:

 public static void updateHourByScroll(String Type) throws IOException {
        System.out.println("scroll 模式启动!");
        Date  begin = new Date();
        SearchResponse scrollResponse = client.prepareSearch(Index).setTypes(TYPE).setSearchType(SearchType.SCAN).setSize(5000).setScroll(TimeValue.timeValueMinutes(1))
                .execute().actionGet();
long count = scrollResponse.getHits().getTotalHits();//第一次不返回数据 
for(int i=0,sum=0; sum<count; i++){ scrollResponse = client.prepareSearchScroll(scrollResponse.getScrollId()) .setScroll(TimeValue.timeValueMinutes(8)) .execute().actionGet(); sum += scrollResponse.getHits().hits().length; SearchHits searchHits = scrollResponse.getHits(); List<UpdateRequest> list = new ArrayList<UpdateRequest>(); for (SearchHit hit : searchHits) { String id = hit.getId(); Map<String, Object> source = hit.getSource(); Integer year = Integer.valueOf(source.get("Year").toString()); Integer month = Integer.valueOf(source.get("Mon").toString()); Integer day = Integer.valueOf(source.get("Day").toString()); Integer hour = Integer.valueOf(source.get("Hour").toString()); String time = getyear_month_day_hour(year, month, day, hour); System.out.println(time); UpdateRequest uRequest = new UpdateRequest() .index(Index) .type(Type) .id(id) .doc(jsonBuilder().startObject().field("TimeFormat", time).endObject()); list.add(uRequest); } // 批量执行 BulkRequestBuilder bulkRequest = client.prepareBulk(); for (UpdateRequest uprequest : list) { bulkRequest.add(uprequest); } BulkResponse bulkResponse = bulkRequest.execute().actionGet(); if (bulkResponse.hasFailures()) { System.out.println("批量错误!"); } System.out.println("总量" + count + " 已经查到" + sum); } Date end = new Date(); System.out.println("耗时: "+(end.getTime()-begin.getTime())); }

 

为了实现分页查询Elasticsearch提出了一种scroll滚动的方式。使用scroll,每次只能获取一页的内容,并返回一个scroll_id。通过这个scroll_id可以不断地获取下一页的内容。值得注意的是,scroll不适用于有跳页的情景。为了使用scroll,我们需要将from设置为0,并指定size来确定每次查询返回的数量。同时,还可以通过设置scroll_id的过期时间来控制scroll的有效期。比如,可以通过设置scroll=5m来保留scroll_id 5分钟可用。 在Java中处理scroll分页查询时,可以使用循环查询的方式。首先进行一次初始化查询,按照需要的查询条件处理,并加上scroll参数。之后的查询都可以使用GET /_search/scroll/接口传递scroll_id来查询。如果返回的数据为空,则表示已经查询完毕,可以终止循环。这样就实现了分页查询的效果。 另外,对于初始化查询,我们可以传递参数scroll=5m给Elasticsearch,它会返回一个base64编码的长字符串作为_scroll_id。这个_scroll_id可以在下次查询时传入,用于继续获取下一页的数据。同时,可以通过指定size参数来控制每次滚动拉取的数据量。需要注意的是,如果做了分片,查询结果可能会超过指定的size大小。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [ES(elasticsearch) - 三种姿势进行分页查询](https://blog.csdn.net/ChengHuanHuaning/article/details/117696054)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [ES - 滚动查询(scroll)](https://blog.csdn.net/qq_36428889/article/details/118727603)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Soyoger

听说打赏的都进了福布斯排行榜。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值