一般集群中会自动选出一个节点来作为master节点,它负责维护集群中的元数据信息,索引的创建和删除,节点的增加和移除
一个index可能会被分成多个shard,primary shard的数量一旦确定就不会修改了,但是replica shard的数量会。primary shard不会和自己的replica shard存放在同一个机器上,但是可以和别的replica shard放在一起
可以在创建index的时候设置分片数量。默认是5主5从
分配了3主3从
集群可以动态扩容,单数primary shard 的数量是不会改变的,只能增加 replica shard,这样就提升了性能。
扩容的时候还有考虑到系统的吞吐量和容错性
容错机制;
如果master宕机之后,系统会重新选取一个node来作为master,或者是普通的primary shard宕机了,这个时期集群的状态都是red。之后会选取一个replica shard来作为 primary shard,此时集群的状态为 yellow 。之后重启机器,会同步之间缺失的数据,整个系统的状态变为 green
手动创建document id:
一般情况下,,如果es中的数据是从其他的地方过来的,本身已经有id了,那么我们可以使用数据本身的id。
自动创建document id:
如果是只用es来作为存储的话,也可以使用es来自动创建id
自动生成的id,长度为20个字符,URL安全,base64编码,GUID,分布式系统并行生成时不可能会发生冲突
es的更新文档和创建类似,如果id存在就全量替换,不存在就创建新的document,在替换的时候会将老的document添加delete的标记,当创建的document越来越多的时候,es会在恰当的时机删除这些document。
es的删除也不是立刻删除,会先标记delete,然后在后台适当的时机删除。
es是基于version字段使用乐观锁来解决并发中存在的问题。
例如:有一个id为7的数据,现在对他进行更新
带有version字段的更新
如果在有其他的线程更新的时候,会出现错误
以上是使用es自带的_version字段进行更新,那么也可以不用这个es自己内部维护的版本号,而使用自己维护的一个版本号。
区别:
唯一的区别在于,_version,只有当你提供的version与es中的_version一模一样的时候,才可以进行修改,只要不一样,就报错;当version_type=external的时候,只有当你提供的version比es中的_version大的时候,才能完成修改
原来的额version是2,传入的是3的时候也更新成功了 。
如果使用内部的version的时候,传入的version的值必须和数据一致
partial update;
局部更新发生在shard的内部,相比于全量更新更迅速。高并发的时候减少了再次查询修改的过程,提高了性能
partial update的时候也是设置retry的次数。即如果version的字段发生了变化重新获取version再进行更新的次数。
批量查询:
查询不同的index下的数据
查询相同的index下不同type;
查询同一个index,同一个type下:
bulk语法;批量操作
每一个操作要两个json串,语法如下:
{"action": {"metadata"}}
{"data"}
举例,比如你现在要创建一个文档,放bulk里面,看起来会是这样子的:
{"index": {"_index": "test_index", "_type", "test_type", "_id": "1"}}
{"test_field1": "test1", "test_field2": "test2"}
有哪些类型的操作可以执行呢?
(1)delete:删除一个文档,只要1个json串就可以了
(2)create:PUT /index/type/id/_create,强制创建
(3)index:普通的put操作,可以是创建文档,也可以是全量替换文档
(4)update:执行的partial update操作
bulk api对json的语法,有严格的要求,每个json串不能换行,只能放一行,同时一个json串和一个json串之间,必须有一个换行
bulk操作中,任意一个操作失败,是不会影响其他的操作的,但是在返回结果里,会告诉你异常日志
bulk size最佳大小:
bulk request会加载到内存里,如果太大的话,性能反而会下降,因此需要反复尝试一个最佳的bulk size。一般从1000~5000条数据开始,尝试逐渐增加。另外,如果看大小的话,最好是在5~15MB之间。