Elasticsearch索引内部原理最简洁的归纳

最新推荐文章于 2024-08-08 09:04:06 发布

奔跑的前浪

最新推荐文章于 2024-08-08 09:04:06 发布

阅读量1.7k

点赞数

分类专栏：搜索索引文章标签： elasticsearch elasticsearch 原理 elasticsearch 搜索原理 elasticsearch 内部原理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lisi1129/article/details/79034067

版权

搜索索引专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Elasticsearch 内部索引写入原理：

1：索引首先会写入到索引的 buffer缓存和translog日志文件中，这个期间不能被客户端索引；

2：每隔一秒钟，buffer 缓存中的数据会被写入到新的segment缓存文件 file中，同时写入系统的缓存中os caching 中，并打开索引，外部客户端可以进行索引查询；这一点说明Elasticsearch 并不是所谓的实时索引，其中有一秒的延迟；

3：写入segment file 后清空buffer缓存数据

4：重复 1-3步骤的操作，新的segment不断增加，buffer不断清空；而transLog 的中的数据不断追加;

5：当transLog 长度达到一定程度是时候，或者到达一定时间的时候，发生commit操作

6：发生commit操作的时候，所有的segment文件会被fsync强行刷到磁盘上；这个过程就是flush,默认是30分钟flush一次；或者tanslog过大的时候，也会触发flush .

7：现有的transLog 被清空，创建一个新的transLog ；

步骤可以参考下图：

Elasticsearch 数据恢复原理：

在索引写入的过程中，只要segment缓存文件没有刷新到磁盘上，当elasticsearch集群出现宕机后，留住缓存中的数据都会丢失掉；当出现上面数据丢失的现象后，怎么处理呢；Elasticsearch有一套容错恢复规则；当数据出现丢失后，会根据transLog记录点重新生产segment缓存文件。

每一秒就是刷新Buffer，生成一个segment文件，导致文件过多，默认后台会执行segment merge 操作，在merge的时候，被标记为deleted 的document也会被彻底物理删除

奔跑的前浪

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。