为什么说es是近实时搜索

最新推荐文章于 2024-06-27 21:16:20 发布

菩提老祖的葡萄架

最新推荐文章于 2024-06-27 21:16:20 发布

阅读量1.4k

点赞数 2

文章标签：数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/asde1239/article/details/132520031

版权

本文详细解释了Elasticsearch（ES）的存储结构，包括数据分布在分片和段中的处理方式，写入过程中的内存优化、刷新策略以及如何保证数据一致性。还介绍了日志（translog）和段合并以提升性能。

摘要由CSDN通过智能技术生成

首先要理解es的存储结构：

一个index的数据，分散在多个shard(分片)，一个分片又有很多segment(段)，es是数据不可变模型，更新数据只是新增一个版本。

es是怎么写数据的？

每次写的时候，首先会写到es的内存(每个分片的内存)，这时写的数据是不可搜索的；然后每个分片默认每秒钟会从内存里读写入的数据，然后新建一个段将数据写到段里(这个操作在es里就叫refresh)，只有写到段里，数据才是可搜索的。也就是只有refresh了数据才能被搜索到，refresh的间隔默认是一秒，理论上es可以保证写入的数据，一秒后是可以被搜索到的，所以说es是近实时搜索。

将数据写到段里的时候，是如何保证磁盘io效率的？

我们知道磁盘io 要通过fsync系统调用，他的代价是很高的，那es是如何保证高效的写入效率呢？在es内存和磁盘文件之间的文件系统缓存，es是先将新段写入文件系统缓存（万一这时程度挂了呢，数据还没有持久化呢，怎么保证数据的一致性），这一步就快了很多了，稍后在将数据刷到磁盘，新段一旦写入文件系统缓存，就可以被打开和读取了，这样es就实现了新段还没有提交完(es中有提交点的概念)，就可以进行查询了。

如何保证持久化

其实各类数据库都基本上是一种思路，同时将数据写入log，万一挂了从log里往回补数据，这里es的日志叫做translog，translog被提交的过程就叫做flush。

这里有的小伙伴可能会疑惑：写log不也是往写磁盘吗，难道就快了？因为这类写都是顺序io，非随机io，不用寻址的，效率堪比内存。

段的优化

每秒钟都会refresh产生新的段，这么多是不是会影响查询效率，答案是毋庸置疑的，那怎么办？es还有一个段合并的机制，会定时的将小段合成大段。

菩提老祖的葡萄架

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
为什么说es是近实时搜索

在es内存和磁盘文件之间的文件系统缓存，es是先将新段写入文件系统缓存（万一这时程度挂了呢，数据还没有持久化呢，怎么保证数据的一致性），这一步就快了很多了，稍后在将数据刷到磁盘，新段一旦写入文件系统缓存，就可以被打开和读取了，这样es就实现了新段还没有提交完(es中有提交点的概念)，就可以进行查询了。也就是只有refresh了数据才能被搜索到，refresh的间隔默认是一秒，理论上es可以保证写入的数据，一秒后是可以被搜索到的，所以说es是近实时搜索。将数据写到段里的时候，是如何保证磁盘io效率的？
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。