【ES】ElasticSearch 深入分片

最新推荐文章于 2024-07-15 14:01:48 发布

勤言不勤语

最新推荐文章于 2024-07-15 14:01:48 发布

阅读量1.7k

点赞数 1

分类专栏： ElasticSearch 文章标签： es

本文链接：https://blog.csdn.net/w1992wishes/article/details/102555480

版权

本文深入探讨了Elasticsearch中的分片概念，包括主分片和复制分片的作用。主分片是数据存储的基本单元，复制分片用于数据冗余和故障恢复。分片数量在索引创建时固定，写操作必须在主分片完成，通过路由算法确定写入位置。存储原理中，介绍了不可变索引、段的引入和存储流程，包括延迟写策略和段合并，确保高效读写性能和数据一致性。

摘要由CSDN通过智能技术生成

文章目录

一、分片介绍

分片是 Elasticsearch 在集群中分发数据的关键。

把分片想象成数据的容器。文档存储在分片中，然后分片分配到集群中的节点上。当集群扩容或缩小，Elasticsearch 将会自动在节点间迁移分片，以使集群保持平衡。

一个分片(shard)是一个最小级别“工作单元(worker unit)”，它只是保存了索引中所有数据的一部分。

这类似于 MySql 的分库分表，只不过 Mysql 分库分表需要借助第三方组件而 ES 内部自身实现了此功能。

分片可以是主分片(primary shard)或者是复制分片(replica shard)。

在集群中唯一一个空节点上创建一个叫做 blogs 的索引。默认情况下，一个索引被分配 5 个主分片，下面只分配 3 个主分片和一个复制分片（每个主分片都有一个复制分片）：

curl -H "Content-Type: application/json" -XPUT localhost:9200/blogs -d '
{
   
    "settings": {
   
        "number_of_shards": 3,
        "number_of_replicas": 1
    }
}'

1.1、主分片

在一个多分片的索引中写入数据时，通过路由来确定具体写入哪一个分片中，大致路由过程如下：

shard = hash(routing) % number_of_primary_shards

routing 是一个可变值，默认是文档的 _id ，也可以设置成一个自定义的值。routing 通过 hash 函数生成一个数字，然后这个数字再除以 number_of_primary_shards （主分片的数量）后得到余数。这个在 0 到 number_of_primary_shards 之间的余数，就是所寻求的文档所在分片的位置。

这解释了为什么要在创建索引的时候就确定好主分片的数量并且永远不会改变这个数量：因为如果数量变化了，那么所有之前路由的值都会无效，文档也再也找不到了。

索引中的每个文档属于一个单独的主分片，所以主分片的数量决定了索引最多能存储多少数据（实际的数量取决于数据、硬件和应用场景）。

1.2、复制分片

复制分片

最低0.47元/天解锁文章

勤言不勤语

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
【ES】ElasticSearch 深入分片

文章目录一、分片介绍1.1、主分片1.2、复制分片二、分片的存储2.1、写索引过程2.2、存储原理2.2.1、索引的不可变性2.2.2、段的引入2.2.3、延迟写策略--近实时搜索--fresh2.2.4、持久化--flush2.2.5、合并段三、来源资料一、分片介绍分片是 Elasticsearch 在集群中分发数据的关键。把分片想象成数据的容器。文档存储在分片中，然后分片分配到集群中的节...
复制链接

扫一扫

专栏目录