ES中的查询是近实时的,也就是说当数据添加到索引后并不能马上被查询到,等到索引刷新后才会被查询到,索引刷新相关字段为refresh_interval,默认为1s刷新一次。
为何说ES的查询是近实时的呢?首先先了解下ES写入数据的过程:
- ES写入数据是先把数据写进Luence的**"memory buffer"缓冲区**(同时也会把数据写一份到translog buffer,进行定时同步到磁盘的持久性操作),Elasticsearch 是基于 Lucene 实现的。ES 基于底层这些包,然后进行了扩展,提供了更多的更丰富的查询语句,并且通过 RESTful API 可以更方便地与底层交互。ES中的倒排索引、打分机制、全文检索原理、分词原理等技术都是Lucene提供的。
- 写进Luence的"memory buffer"缓冲区的数据还不能被查询,Luence会每1s调用refresh方法将缓冲区的数据刷新到FileSystemCache中,刷新时间可以修改,也就是可以修改refresh_interval参数。FileSystemCache是缓存层,会将数据生成segment文件,一旦生成segment文件,就能通过索引查询到了。segment文件就是倒排索引文件
- refresh完,memory buffer就清空了。每隔5s中,开始是保存到translog buffer到数据就会被flush到磁盘中
- 定期/定量从FileSystemCache中,结合translog内容flush index到磁盘中。做增量flush