ES读写流程

读取流程

  es是一个分布式的存储和检索系统,在存储的时候默认是根据每条记录的_id字段做路由分发的,ES会把index中的多个document分配到多个不同的分片上,且尽量保持每个分片上document的数量平衡。es服务端是准确知道每个document分布在哪个分片(shard)上的。一个document相当于关系型数据库中的一行数据,它在ES中是最小的数据单位,因此一个document不会被拆分到多个分片上。
  当我们读取数据时候,我们不知道那些document会被匹配到,任何一个分片上都有可能,所以一个查询请求必须查询索引的一个或多个分片才能完整的查询到我们想要的结果。找到所有匹配的结果是查询的第一步,来自多个分片上的数据集在分页返回到客户端之前会被合并到一个排序后的list列表,由于需要经过一步取top N的操作,所以读取需要进过两个阶段才能完成,分别是query和fetch。下面我们通过一个简单的举例来形象的说明。

读阶段(query)

  当发出一个查询请求的时候,这个查询会被广播到索引里面的每一个分片(主分片或副本分片),每个分片会在本地执行查询请求后会生成一个命中文档的优先级队列。这个队列是一个排序好的top N数据的列表,它的size等于from+size的和,也就是说如果你的from是10,size是10,那么这个队列的size就是20,所以这也是为什么深度分页不能用from+size这种方式,因为from越大,性能就越低。假如有1万条数据记录了各种水果在全国各省市的销量,其中草莓的销量数据如下:
在这里插入图片描述

  它们被分到了不同的分片上,当用户想分页查询草莓销量的Top2数据的第二页时,(Select * from table where 品种=‘草莓’ order by 销量 desc limit 2,2 ),客户端收到用户发出的请求,将它发送到服务端的随机一个节点A上,此时这个A节点就成了协调节点,A节点会创建一个优先级队列,筛除A节点的前4条数据,同时会把这个请求转发到index的每一个主分片或者副本分片上,每个节点会在本地查询,然后添加结果到本地的排序好的优先级队列里面;就拿上面的这个草莓的例子来讲,三个节点各返回了前四条数据,这样加起来就是12条数据。注意此处为什么是返回4条数据ÿ

  • 7
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值