好久没写博客了,今天闲来无事,剖析下Elasticsearch,es最近这几年异常的火爆,其开箱即用,天然支持分布式的特性越来越受到欢迎,目前笔者所在的公司主要用es存储日志类型的信息.
闲话不多说,默认有es相关的基础,当客户端想es的shard中写入数据的时候,过程大致如下:
客户端通过路由节点到达指定的shard分片,es的shard地层就是lunces的index
1.数据首先写被入es的jvm内存中,此时数据对外不可见.
2.默认每隔1s将jvm的数据写入到底层lunces的os cache中,一旦写入到os cache中数据即可查询出来.所以es可以做到近实时的搜索.
3.默认每隔30分钟将数据从os cache中flush到磁盘上,成为一个个的segment file
此时可能有人就问了如果节点宕机数据岂不是丢失了,没错的为了解决这个问题,es默认每隔5s中生成translog日志持久化到磁盘上,用于节点重启的时候进行数据恢复使用(你可以理解成mysql中的binlog)
4,translog也是默认写到os cache中的当translog到达一定发值的时候就会触发commit操作,生成磁盘文件.
5,primary shard写入成功后会同步到其他的replica shard去.
6,当primary shard 和replica shard节点都写完后,协调节点会返回给客户端数据写入成功的响应
es会定期进行merge操作,进行segment file的合并,当我们删除索引数据的时候并不是直接进行物理删除,而是给数据打标,逻辑删除,当进行segment 合并的时候会将标记删除的文件进行物理删除操作.
最后给你们贴个图以便于理解:此图原创作者中华石山如有侵权请尽快通知