es学习4-flush and translog

最新推荐文章于 2023-03-09 09:28:33 发布

weixin_33755557

最新推荐文章于 2023-03-09 09:28:33 发布

阅读量180

点赞数

文章标签： python 大数据

原文链接：https://my.oschina.net/chengxiaoyuan/blog/844995

版权

2019独角兽企业重金招聘Python工程师标准>>>

前面说的refresh操作，是站在客户端角度看的，但是索引修改结果对搜索可见并不代表把数据已经刷到磁盘上了，持久化到文件是很重的操作，这些数据都是临时存放在缓冲区，可以通过flush api把这些数据直接刷到磁盘，Elasticsearch也会根据条件触发刷新操作：

index.translog.flush_threshold_size 默认512mb, 缓冲达到就会触发

如果缓存数据只是放在内存中，那么上面带来的问题是节点挂了内存数据也就没了，所以又出现另外一个机制叫事务日志translog，所有内存操作都同步保存到translog才会返回给客户端，这在其他领域也都比较常用(hbase ,zookeeper等)， flush操作之后会清除translog，程序重启后会从translog中恢复数据，translong是顺序写, 比直接创建索引要高效的多。

index.translog.sync_interval：tanslog写到磁盘间隔，默认5s, 最小100ms
index.translog.durability：translog同步文件方式
    request：默认，每个请求都会触发操作，硬件坏了也没事，因为数据已经写到文件了
    async：异步落地，配合sync_interval参数，如果硬件故障，自从上次自动提交点以后的数据都会丢失

如果translog坏了(checksums检查不匹配)，那么es会把这个分片除掉，拒绝新数据副本发送过来，并从其他副本恢复。
如果所有副本都坏了，还可以通过elasticsearch-translog命令来从translong恢复部分数据。

参考：
https://www.elastic.co/guide/en/elasticsearch/reference/current/indices-flush.html
https://www.elastic.co/guide/en/elasticsearch/reference/current/index-modules-translog.html

转载于:https://my.oschina.net/chengxiaoyuan/blog/844995