ES 为什么是准实时的

最新推荐文章于 2024-08-16 08:00:00 发布

群青日和_

最新推荐文章于 2024-08-16 08:00:00 发布

阅读量49

点赞数

文章标签： java es elasticsearch

原文链接：https://segmentfault.com/a/1190000037762563

版权

数据从 buffer 到 cache 的过程是定期每秒刷新一次。所以新写入的 Document 最慢 1 秒就可以在 cache 中被搜索到。

而 Document 从 buffer 到 cache 的过程叫做 ?refresh 。一般是 1 秒刷新一次，不需要进行额外修改。当然，如果有修改的需要，可以参考文末的相关资料。这也就是为什么说 Elasticsearch 是准实时的。

使文档立即可见：

Translog 事务日志

此处可以联想 Mysql 的 binlog， ES 中也存在一个 translog 用来失败恢复。

Document 不断写入到 In-memory buffer，此时也会追加 translog。
当 buffer 中的数据每秒 refresh 到 cache 中时，translog 并没有进入到刷新到磁盘，是持续追加的。
translog 每隔 5s 会 fsync 到磁盘。
translog 会继续累加变得越来越大，当 translog 大到一定程度或者每隔一段时间，会执行 flush。

flush 操作会分为以下几步执行：

buffer 被清空。
记录 commit point。
cache 内的 segment 被 fsync 刷新到磁盘。
translog 被删除。

值得注意的是：

translog 每 5s 刷新一次磁盘，所以故障重启，可能会丢失 5s 的数据。
translog 执行 flush 操作，默认 30 分钟一次，或者 translog 太大也会执行。

手动执行flush：

删除和更新

segment 不可改变，所以 docment 并不能从之前的 segment 中移除或更新。

所以每次 commit，生成 commit point 时，会有一个 .del 文件，里面会列出被删除的 document（逻辑删除）。而查询时，获取到的结果在返回前会经过 .del 过滤。

更新时，也会标记旧的 docment 被删除，写入到 .del 文件，同时会写入一个新的文件。此时查询会查询到两个版本的数据，但在返回前会被移除掉一个。

segment 合并

每 1s 执行一次 refresh 都会将内存中的数据创建一个 segment。

segment 数目太多会带来较大的麻烦。每一个 segment 都会消耗文件句柄、内存和cpu运行周期。更重要的是，每个搜索请求都必须轮流检查每个 segment ；所以 segment 越多，搜索也就越慢。

在 ES 后台会有一个线程进行 segment 合并。

refresh操作会创建新的 segment 并打开以供搜索使用。
合并进程选择一小部分大小相似的 segment，并且在后台将它们合并到更大的 segment 中。这并不会中断索引和搜索。
当合并结束，老的 segment 被删除说明合并完成时的活动：
新的 segment 被刷新（flush）到了磁盘。写入一个包含新 segment 且排除旧的和较小的 segment的新 commit point。
新的 segment 被打开用来搜索。
老的 segment 被删除。

物理删除：

在 segment merge 这块，那些被逻辑删除的 document 才会被真正的物理删除。

总结

主要介绍了内部写入和删除的过程，需要了解 refresh、fsync、flush、.del、segment merge 等名词的具体含义。

完整画图如下：

以上就是个人分享的 ES 相关的内容，主要目的是组内技术分享，进行扫盲。不对之处，希望大家留言指正。

相关资料

准实时搜索： https://www.elastic.co/guide/en/elasticsearch/reference/7.9/near-real-time.html
Refresh API：https://www.elastic.co/guide/en/elasticsearch/reference/7.9/indices-refresh.html
Flush API：https://www.elastic.co/guide/en/ela

PUT /test/_doc/1?refresh
{"test": "test"}

// 或者
PUT /test/_doc/2?refresh=true
{"test": "test"}

POST /my-index-000001/_flush

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。