Elasticsearch中refresh和flush的区别是什么

Elasticsearch中的_refresh_确保文档被立即搜索到,它将内存中的数据转移到文件系统缓存。而_flush_关注数据安全,定期将translog日志commit至磁盘并清空,保证数据完整性。在ES2.0后,每次写入操作完成后都会flush translog以提高数据安全,但可能影响写入性能。可通过设置`index.translog.durability`和`index.translog.sync_interval`调整策略。
摘要由CSDN通过智能技术生成

在ES中, 要保证被索引的文档能够立即被搜索到, 有两种方法:_refresh 或者_flush。

那么二者的区别是什么呢?要搞懂这个问题, 就需要对ES中文档的索引过程有个了解。

我们知道ES的索引数据是写入到磁盘上的。但这个过程是分阶段实现的,因为IO的操作是比较费时的。

当一个文档进入ES的初期, 文档是被存储到内存里的,默认经过1s之后, 会被写入文件系统缓存,这样该文档就可以被搜索到了,注意,此时该索引数据被没有最终写入到磁盘上。如果你对这1s的时间间隔还不满意, 调用_refresh就可以立即实现内存->文件系统缓存, 从而使文档可以立即被搜索到。

Elasticsearch ,`flush` 线程池和 `refresh` 线程池是两个不同的线程池,用于执行不同的操作。 1. **Flush 线程池**:Flush 操作是将内存的数据刷新到磁盘上的持久化存储,以确保数据的持久性和一致性。当执行索引、更新或删除操作时,数据首先被写入内存的缓冲区(称为 translog),然后通过 Flush 操作将缓冲区的数据刷新到磁盘上的索引文件。Flush 操作可以通过 `flush` API 或者自动触发来执行。 Flush 线程池负责执行 Flush 操作,它控制着 Flush 操作的并发度和资源使用。线程池的线程会按照优先级处理 Flush 请求,确保数据及时地写入磁盘,以避免数据丢失。 2. **Refresh 线程池**:Refresh 操作是使最新的写入操作对搜索可见。Elasticsearch 使用一种叫做 "近实时(Near Real-Time)" 的模型,即在文档被索引后,它并不立即对搜索可见,而是在 Refresh 操作后才能被搜索到。Refresh 操作可以通过 `refresh` API 或者自动触发来执行。 Refresh 线程池负责执行 Refresh 操作,它控制着 Refresh 操作的并发度和资源使用。线程池的线程会按照优先级处理 Refresh 请求,确保最新的写入操作能够及时对搜索可见。 总结来说,Flush 线程池负责将内存的数据刷新到磁盘,以确保数据的持久性;而 Refresh 线程池负责使最新的写入操作对搜索可见。 在默认情况下,FlushRefresh 操作都是自动执行的,并且它们在 Elasticsearch 的内部进行管理。但是,您也可以手动触发 FlushRefresh 操作,以满足特定的需求。 请注意,线程池的大小和配置对系统性能有一定影响。根据集群的负载情况和性能需求,您可能需要调整线程池的配置参数来优化系统的性能和资源利用。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值