ElasticSearch核心知识 -- 索引过程

最新推荐文章于 2022-07-01 10:49:44 发布

weixin_30776545

最新推荐文章于 2022-07-01 10:49:44 发布

阅读量83

点赞数

文章标签：大数据数据结构与算法

原文链接：http://www.cnblogs.com/hoyas/p/8109826.html

版权

1、索引过程图解:

api向集群发送索引请求，集群会使用负载均衡节点来处理该请求，如果没有单独的负载均衡点，master节点会充当负载均衡点的角色。
负载均衡节点根据routing参数来计算要将该索引存储到哪个primary shard上，然后将数据给到对应的shard。
对应的shard拿到数据后进行索引写入，写入成功后，将数据给到自己的replica shard。
当replica shard也将数据成功写入后，返回成功的结果到负载均衡节点。
此时负载均衡节点才认为数据写入成功，将成功索引的结果返回给请求的api

2、routing(路由)参数

2.1、routing参数的指定和计算原理

每个document存放在哪个shard上是由routing参数决定的，那这个参数的值是什么，ElasticSearch又是怎么通过该参数来确定存放在哪个shard上呢？

routing参数的默认值为_id，也可以进行手动指定routing参数，可以是值，也可以是某个字段:
```
PUT /index/type/id?routing=user_id
{
    "user_id":"M9472323048",
    "name":"zhangsan",
    "age":54
}
```
ElasticSearch有个哈希算法，通过 Hash(routing) % number_of_shards算得存储到哪个shard上面去，比如上面的语句，假设Hash("M9472323048") = 23，该index含有3个shard，则存储到 23 % 3 = 2，即P2上面。shard编号取值为0 number_of_shards - 1。

2.2、手动指定routing和自动routing的区别

routing的值默认为_id字段，_id可以保证在集群中唯一，但是有时候需要手动指定routing来优化后续的查询过程。因为routing确定，那就可以指定用哪个routing进行查询，缩减了目标结果集，减少了ElasticSearch集群的压力。

使用自动routing:
- 优点: 简单，可以很均衡的分配每个shard中的文档数量，做到负载均衡
- 缺点: 当查询一下复杂的数据时，需要到多个shard中查找，查询偏慢
使用手动routing:
- 优点: 查询时指定当初入库的routing进行查询，锁定shard，直达目标，查询速度快
- 缺点: 麻烦，要保证存储的均衡比较复杂

转载于:https://www.cnblogs.com/hoyas/p/8109826.html

weixin_30776545

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ElasticSearch核心知识 -- 索引过程

1、索引过程图解:api向集群发送索引请求，集群会使用负载均衡节点来处理该请求，如果没有单独的负载均衡点，master节点会充当负载均衡点的角色。负载均衡节点根据routing参数来计算要将该索引存储到哪个primary shard上，然后将数据给到对应的shard。对应的shard拿到数据后进行索引写入，写入成功后，将数据给到自己的replica shard。当replica sha...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。