前面说的refresh操作,是站在客户端角度看的,但是索引修改结果对搜索可见并不代表把数据已经刷到磁盘上了,持久化到文件是很重的操作,这些数据都是临时存放在缓冲区,可以通过flush api把这些数据直接刷到磁盘,Elasticsearch也会根据条件触发刷新操作:
index.translog.flush_threshold_size 默认512mb, 缓冲达到就会触发
如果缓存数据只是放在内存中,那么上面带来的问题是节点挂了内存数据也就没了,所以又出现另外一个机制叫事务日志translog,所有内存操作都同步保存到translog才会返回给客户端,这在其他领域也都比较常用(hbase ,zookeeper等), flush操作之后会清除translog,程序重启后会从translog中恢复数据,translong是顺序写, 比直接创建索引要高效的多。
index.translog.sync_interval:tanslog写到磁盘间隔,默认5s, 最小100ms
index.translog.durability:translog同步文件方式
request:默认,每个请求都会触发操作,硬件坏了也没事,因为数据已经写到文件了
async:异步落地,配合sync_interval参数,如果硬件故障,自从上次自动提交点以后的数据都会丢失
如果translog坏了(checksums检查不匹配),那么es会把这个分片除掉,拒绝新数据副本发送过来,并从其他副本恢复。
如果所有副本都坏了,还可以通过elasticsearch-translog命令来从translong恢复部分数据。
参考:
https://www.elastic.co/guide/en/elasticsearch/reference/current/indices-flush.html
https://www.elastic.co/guide/en/elasticsearch/reference/current/index-modules-translog.html