elasticsearch - 集群，原理

最新推荐文章于 2022-10-03 05:17:00 发布

Lee_Suoer

最新推荐文章于 2022-10-03 05:17:00 发布

阅读量214

点赞数

分类专栏： elasticsearch 文章标签： elasticsearch

本文链接：https://blog.csdn.net/Lee_Suoer/article/details/87455072

版权

elasticsearch 专栏收录该内容

18 篇文章 1 订阅

订阅专栏

一般集群中会自动选出一个节点来作为master节点，它负责维护集群中的元数据信息，索引的创建和删除，节点的增加和移除

一个index可能会被分成多个shard，primary shard的数量一旦确定就不会修改了，但是replica shard的数量会。primary shard不会和自己的replica shard存放在同一个机器上，但是可以和别的replica shard放在一起

可以在创建index的时候设置分片数量。默认是5主5从

分配了3主3从

集群可以动态扩容，单数primary shard 的数量是不会改变的，只能增加 replica shard，这样就提升了性能。

扩容的时候还有考虑到系统的吞吐量和容错性

容错机制;

如果master宕机之后，系统会重新选取一个node来作为master，或者是普通的primary shard宕机了，这个时期集群的状态都是red。之后会选取一个replica shard来作为 primary shard，此时集群的状态为 yellow 。之后重启机器，会同步之间缺失的数据，整个系统的状态变为 green

手动创建document id：

一般情况下，，如果es中的数据是从其他的地方过来的，本身已经有id了，那么我们可以使用数据本身的id。

自动创建document id：

如果是只用es来作为存储的话，也可以使用es来自动创建id

自动生成的id，长度为20个字符，URL安全，base64编码，GUID，分布式系统并行生成时不可能会发生冲突

es的更新文档和创建类似，如果id存在就全量替换，不存在就创建新的document，在替换的时候会将老的document添加delete的标记，当创建的document越来越多的时候，es会在恰当的时机删除这些document。

es的删除也不是立刻删除，会先标记delete，然后在后台适当的时机删除。

es是基于version字段使用乐观锁来解决并发中存在的问题。

例如：有一个id为7的数据，现在对他进行更新

带有version字段的更新

如果在有其他的线程更新的时候，会出现错误

以上是使用es自带的_version字段进行更新，那么也可以不用这个es自己内部维护的版本号，而使用自己维护的一个版本号。

区别：

唯一的区别在于，_version，只有当你提供的version与es中的_version一模一样的时候，才可以进行修改，只要不一样，就报错；当version_type=external的时候，只有当你提供的version比es中的_version大的时候，才能完成修改

原来的额version是2，传入的是3的时候也更新成功了。

如果使用内部的version的时候，传入的version的值必须和数据一致

partial update;

局部更新发生在shard的内部，相比于全量更新更迅速。高并发的时候减少了再次查询修改的过程，提高了性能

partial update的时候也是设置retry的次数。即如果version的字段发生了变化重新获取version再进行更新的次数。

批量查询：

查询不同的index下的数据

查询相同的index下不同type;

查询同一个index，同一个type下：

bulk语法；批量操作

每一个操作要两个json串，语法如下：

{"action": {"metadata"}}
{"data"}

举例，比如你现在要创建一个文档，放bulk里面，看起来会是这样子的：

{"index": {"_index": "test_index", "_type", "test_type", "_id": "1"}}
{"test_field1": "test1", "test_field2": "test2"}

有哪些类型的操作可以执行呢？
（1）delete：删除一个文档，只要1个json串就可以了
（2）create：PUT /index/type/id/_create，强制创建
（3）index：普通的put操作，可以是创建文档，也可以是全量替换文档
（4）update：执行的partial update操作

bulk api对json的语法，有严格的要求，每个json串不能换行，只能放一行，同时一个json串和一个json串之间，必须有一个换行

bulk操作中，任意一个操作失败，是不会影响其他的操作的，但是在返回结果里，会告诉你异常日志

bulk size最佳大小：

bulk request会加载到内存里，如果太大的话，性能反而会下降，因此需要反复尝试一个最佳的bulk size。一般从1000~5000条数据开始，尝试逐渐增加。另外，如果看大小的话，最好是在5~15MB之间。

Lee_Suoer

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
elasticsearch - 集群，原理

一般集群中会自动选出一个节点来作为master节点，它负责维护集群中的元数据信息，索引的创建和删除，节点的增加和移除一个index可能会被分成多个shard，primary shard的数量一旦确定就不会修改了，但是replica shard的数量会。primary shard不会和自己的replica shard存放在同一个机器上，但是可以和别的replica shard放在一起可...
复制链接

扫一扫

专栏目录