Go 程序利用 ElasticSearch 游标 Scroll 实现海量数据分页查询

环境准备

本文 olivere/elastic 包进行 es 开发。

  • ElasticSearch v6 集群环境

  • ES 第三方包

    1. github.com/olivere/elastic 文档以及测试用例比 go-elasticsearch 丰富

    2. github.com/elastic/go-elasticsearch

ElasticSearch 配置读取

编写 conf.ini 配置文件,添加 elasticsearch 集群地址

[ES]EsAddrs = http://node1:9200,http://node2:9200,http://node3:9200

定义 EsConf 结构体

EsConf struct {    EsAddrs string}

在 init 方法中,利用 goconfig 读取 confPath 参数指定的 conf.ini 配置文件路径。

func init() {  var (    iniF string  )  flag.StringVar(&iniF, "confPath", "d:/conf.ini", "Set Configuration File")  flag.Parse()  var err error  IniF, err = goconfig.LoadConfigFile(iniF)  if err != nil {    os.Exit(1)  }  log.Println("Load conf.ini Success!")}

在 main 方法中读取 EsAddrs 参数值。

EsConf := &conf.EsConf{    EsAddrs: GetStringValue(EsSection, EsAddrs, ""),  }func GetStringValue(section string, key string, defValue string) (r string) {  val, err := IniF.GetValue(section, key)  if err != nil {    return defValue  }  return val}

初始化 elasticsearch 客户端实例。

EsClient, err = NewClient()if err != nil {    panic(err)}func NewClient() (*elastic.Client, error) {  esConf := EsConf  if len(esConf.EsAddrs) == 0 {    panic("EsAddrs is Empty!")  }  esAddrs := strings.Split(esConf.EsAddrs, ",")  client, err := elastic.NewClient(elastic.SetURL(esAddrs...))  log.Println("ES initial successful!")  return client, err}

ElasticSearch 游标(Scroll)分页

查询时间需求对应 es 时间格式为:

#开始时间st := 20171027000000# 结束时间et :=20200328235959

初始化游标查询,设置游标每次查询 size 大小:5000 条,注意 sort 排序时,必须是 字段 + .keyword,否则查询会报错。

boolQry := elastic.NewBoolQuery()boolQry.Must(elastic.NewRangeQuery("updateDate").From(st).To(et))res, err := EsClient.Scroll().Index(EsHisPendDB).Type(EsHisPendType).      Query(boolQry).      Sort("updateDate.keyword", false).      Scroll("5m").      Size(Conf.ExpConf.ExpPageSize).      Do(context.Background())# 抽取数据pendingList := extractPendList(*res.Hits)

使用 for 循环读取所有数据,直到 len(res.Hits.Hits) 大小为 0,说明 elasticsearch 查询读取完毕,停止 for 循环。

for {
      res, err := EsClient.Scroll("1m").ScrollId(scrollId).Do(context.TODO())      

      if len(res.Hits.Hits) <= 0 {      
         break 
      }

      pendingList := extractPendList(*res.Hits)
     
}

输出效果:

其中使用 Scroll 游标第一次查询会产生 SrcollID 值。

DnF1ZXJ5VGhlbkZldGNoBQAAAAAABDKbFldaYi1nOUhBVF8yZHNfZkJISllSMEEAAAAAAAMrlhZMRWZNdVlNaFFiQ1pjdkFiNHBrMW1BAAAAAAAEMpwWV1piLWc5SEFUXzJkc19mQkhKWVIwQQAAAAAABDKdFldaYi1nOUhBVF8yZHNfZkJISllSMEEAAAAAAAMwQhY4YUFDNVNVNlJsRzc4NFVYRnRyZ2xB
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
使用 ElasticsearchScroll API 可以实现高效分页查询大量数据。下面是一个基于 Java 的 demo: ```java import org.apache.http.HttpHost; import org.elasticsearch.action.search.ClearScrollRequest; import org.elasticsearch.action.search.ClearScrollResponse; import org.elasticsearch.action.search.SearchRequest; import org.elasticsearch.action.search.SearchResponse; import org.elasticsearch.action.search.SearchScrollRequest; import org.elasticsearch.client.RestClient; import org.elasticsearch.client.RestHighLevelClient; import org.elasticsearch.common.unit.TimeValue; import org.elasticsearch.index.query.QueryBuilders; import org.elasticsearch.search.SearchHit; import org.elasticsearch.search.builder.SearchSourceBuilder; import java.io.IOException; public class ElasticsearchDemo { public static void main(String[] args) throws IOException { RestHighLevelClient client = new RestHighLevelClient( RestClient.builder( new HttpHost("localhost", 9200, "http"))); SearchSourceBuilder sourceBuilder = new SearchSourceBuilder(); sourceBuilder.query(QueryBuilders.matchAllQuery()); sourceBuilder.size(10000); sourceBuilder.timeout(new TimeValue(60, TimeValue.Unit.SECONDS)); SearchRequest searchRequest = new SearchRequest(); searchRequest.indices("your_index_name"); searchRequest.scroll(new TimeValue(60000)); searchRequest.source(sourceBuilder); SearchResponse searchResponse = client.search(searchRequest); String scrollId = searchResponse.getScrollId(); SearchHit[] hits = searchResponse.getHits().getHits(); while (hits != null && hits.length > 0) { // 处理查询结果 for (SearchHit hit : hits) { // 处理查询结果 } SearchScrollRequest scrollRequest = new SearchScrollRequest(scrollId); scrollRequest.scroll(new TimeValue(60000)); searchResponse = client.scroll(scrollRequest); scrollId = searchResponse.getScrollId(); hits = searchResponse.getHits().getHits(); } ClearScrollRequest clearScrollRequest = new ClearScrollRequest(); clearScrollRequest.addScrollId(scrollId); ClearScrollResponse clearScrollResponse = client.clearScroll(clearScrollRequest); client.close(); } } ``` 上述代码中,我们通过 Elasticsearch 的 Java 客户端 RestHighLevelClient 发起查询请求,并设置查询条件为 `matchAllQuery()`,查询结果的数量为 10000,查询超时时间为 60 秒。然后使用 `searchRequest.scroll(new TimeValue(60000))` 设置查询结果的滚动时间为 60 秒,获取第一次查询结果 `searchResponse`。 接下来,我们使用 `searchResponse.getScrollId()` 获取查询结果的 scrollId,并使用 `searchResponse.getHits().getHits()` 获取查询结果的 hits 数组,处理查询结果。然后使用 `SearchScrollRequest` 发起下一次查询,获取查询结果 `searchResponse` 和新的 scrollId,重复以上操作,直到查询结果为空。 最后,我们使用 `ClearScrollRequest` 清除 scrollId,释放资源。 使用 Scroll API 可以高效地查询大量数据,但需要注意的是,查询结果会占用 Elasticsearch 的内存资源,需要在使用完毕后及时清除 scrollId。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

彬禹随笔

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值