elasticsearch - 集群,原理

 

一般集群中会自动选出一个节点来作为master节点,它负责维护集群中的元数据信息,索引的创建和删除,节点的增加和移除

一个index可能会被分成多个shard,primary shard的数量一旦确定就不会修改了,但是replica shard的数量会。primary shard不会和自己的replica shard存放在同一个机器上,但是可以和别的replica shard放在一起

可以在创建index的时候设置分片数量。默认是5主5从

分配了3主3从

 

 

集群可以动态扩容,单数primary shard 的数量是不会改变的,只能增加 replica  shard,这样就提升了性能。

扩容的时候还有考虑到系统的吞吐量和容错性

 

容错机制;

如果master宕机之后,系统会重新选取一个node来作为master,或者是普通的primary shard宕机了,这个时期集群的状态都是red。之后会选取一个replica shard来作为 primary shard,此时集群的状态为 yellow 。之后重启机器,会同步之间缺失的数据,整个系统的状态变为 green

 

 

手动创建document id:

一般情况下,,如果es中的数据是从其他的地方过来的,本身已经有id了,那么我们可以使用数据本身的id。

自动创建document id:

如果是只用es来作为存储的话,也可以使用es来自动创建id

自动生成的id,长度为20个字符,URL安全,base64编码,GUID,分布式系统并行生成时不可能会发生冲突

 

es的更新文档和创建类似,如果id存在就全量替换,不存在就创建新的document,在替换的时候会将老的document添加delete的标记,当创建的document越来越多的时候,es会在恰当的时机删除这些document。

es的删除也不是立刻删除,会先标记delete,然后在后台适当的时机删除。

 

es是基于version字段使用乐观锁来解决并发中存在的问题。

例如:有一个id为7的数据,现在对他进行更新

带有version字段的更新

如果在有其他的线程更新的时候,会出现错误

 

 

以上是使用es自带的_version字段进行更新,那么也可以不用这个es自己内部维护的版本号,而使用自己维护的一个版本号。

区别:

唯一的区别在于,_version,只有当你提供的version与es中的_version一模一样的时候,才可以进行修改,只要不一样,就报错;当version_type=external的时候,只有当你提供的version比es中的_version大的时候,才能完成修改

原来的额version是2,传入的是3的时候也更新成功了 。

如果使用内部的version的时候,传入的version的值必须和数据一致

 

partial update;

局部更新发生在shard的内部,相比于全量更新更迅速。高并发的时候减少了再次查询修改的过程,提高了性能

partial update的时候也是设置retry的次数。即如果version的字段发生了变化重新获取version再进行更新的次数。

 

 

 

批量查询:

查询不同的index下的数据

查询相同的index下不同type;

查询同一个index,同一个type下:

 

 

 

bulk语法;批量操作

每一个操作要两个json串,语法如下:

{"action": {"metadata"}}
{"data"}

举例,比如你现在要创建一个文档,放bulk里面,看起来会是这样子的:

{"index": {"_index": "test_index", "_type", "test_type", "_id": "1"}}
{"test_field1": "test1", "test_field2": "test2"}

有哪些类型的操作可以执行呢?
(1)delete:删除一个文档,只要1个json串就可以了
(2)create:PUT /index/type/id/_create,强制创建
(3)index:普通的put操作,可以是创建文档,也可以是全量替换文档
(4)update:执行的partial update操作

bulk api对json的语法,有严格的要求,每个json串不能换行,只能放一行,同时一个json串和一个json串之间,必须有一个换行

bulk操作中,任意一个操作失败,是不会影响其他的操作的,但是在返回结果里,会告诉你异常日志

bulk size最佳大小:

bulk request会加载到内存里,如果太大的话,性能反而会下降,因此需要反复尝试一个最佳的bulk size。一般从1000~5000条数据开始,尝试逐渐增加。另外,如果看大小的话,最好是在5~15MB之间。

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值