ElasticSearch的Scroll与Scan有何作用?区别?

使用ElasticSearch的scroll和scan解决大数据集合问题


功能:解决在ElasticSearch中大数据集合的查询需求,可以使用scroll scan可以较轻松的遍历elasticsearch的某个index.


什么是深度分页?

使用es的from和size语法来进行范围取值。 比如size=10&from=5000 ,这就是深度分页的用法。 为了拿到想要的 10个数据,es首先会扫描shard分片进行匹配并排序数据,之后算出5000个。这样就能拿到你想要那10个数据。 重复操作会很蛋疼,ElasticSearch的scroll便有了用武之地!

elasticsearch的scroll是什么?

可以简单理解为mysql的cursor游标,比如你一次请求的数据会很大,可以使用scroll这样的流式接口,scroll会把你的所需要的结果标记起来。但是这scroll的查询还是会对数据进行排序的,这样会影响性能。 若你是单纯的想要数据,那么可以使用scan,因为scan会告诉 elasticsearch 不去排序。scan模式会扫描shard分片中的数据,单纯的扫除匹配,而不会像scroll进行排序处理。

对于没有排序的深度分页需求, scan scroll组合使用是最好的选择。scan scroll的流式接口用法很是简单,在url里扩充字段 search_type 是scan类型,scroll是3分钟,当次查询的结果会在elasticsearch标记3分钟。
这里的size 1000个会在每个shard起到作用。 并不是把所有结果限制为1000个 ! 如果你的分片数目有10个,那么你最多可以拿到 1000 * 10的数据。


例子:

#xiaorui.cc
curl -XGET xiaorui.cc:9200/blog/breif/_search?pretty&search_type=scan&scroll=3m -d 
{"size":1000,"query":{"match_all":{}}}

返回体:

#xiaorui.cc
{
  "_scroll_id": : "UVM4U0NMd2sdfcvrtrtpjWlJ3YWlBOzExOTpRNV9aY1VyUVM4U0NMd2pjWlJ3YWlBOzExNjpRNV9aY1VyUVM4U0NMd2pjWlJ3YWlBOzExNzpRNV9sdfou4kjldsfkoicvuefldfjldfgjaY1VyUVM4U0NMd2pjWlJ3YW",
  "took" : 1,
  "timed_out" : false,
  "_shards" : {
    "total" : 5,
    "successful" : 5,
    "failed" : 0
    }
    "hits" : {  
    "total" : 0,  
    "max_score" : null,  
    "hits" : [ ]  
  }
}  

如果你想设定更多的时间:

Time    Units
y   Year
M   Month
w   Week
d   Day
h   Hour
m   Minute
s   Second

注意: 第一次的查询结果只能拿到scroll_id token,并没有数据。 接着我们可以拿着这个token继续去访问,我们就能拿到真实命中的数据。但是这个token只能访问一次,切记…

curl –XGET 'localhost:9200/_search/scroll?scroll=2m&pretty&scroll_id=UVK8sdfdfgNMSDF2pcRaftJKHlovaMNDSF4M4U0NMd2pjWlJ3YWlBOzExOTpRNV9aY1VyUVM4U0NMd2pjWlJ3YWlBOzExNjpRNV9aY1VyUVM4U0NMd2pjWlJ3YWlBOzExNzpRNV9sdfou4kjldsfkoicvuefldfjldfgjaY1VyUVM4U0NMd2pjWlJ3YW'

检索下一批结果在url里面不用再写index、type。 每一次对scrollAPI的请求都会返回结果的下一批直到没有更多的结果返回为止。比如,当hits数组为空的时候。 这样每次的查询都会拿到一个scroll token和response hits结果集。

如果你想删除scroll id,那么可以调用delete方法删除. 除非是你的scan任务特别的,一般scroll设立个5分钟就可以了。

#xiaorui.cc
curl –XDELETE 'localhost:9200/_search/scroll -d "UVK8sdfdfgNMSDF2pcRaftJKHlovaMNDSF4M4U0NMd2pjWlJ3YWlBOzExOTpRNV9aY1VyUVM4U0NMd2pjWlJ3YWlBOzExNjpRNV9aY1VyUVM4U0NMd2pjWlJ3YWlBOzExNzpRNV9sdfou4kjldsfkoicvuefldfjldfgjaY1VyUVM4U0NMd2pjWlJ3YW"

参考博文:http://xiaorui.cc/2016/03/28/%E4%BD%BF%E7%94%A8elasticsearch%E7%9A%84scroll%E5%92%8Cscan%E8%A7%A3%E5%86%B3%E6%B7%B1%E5%BA%A6%E5%88%86%E9%A1%B5%E9%97%AE%E9%A2%98/

8/17/2017 6:53:26 PM

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值