12、详细描述一下 Elasticsearch 索引文档的过程。
协调节点默认使用文档
ID
参与计算(也支持通过
routing
),以便为路由提供合适的分片。
shard = hash(document_id) % (num_of_primary_shards)
1
、当分片所在的节点接收到来自协调节点的请求后,会将请求写入到
Memory Buffer,然后定时(默认是每隔
1
秒)写入到
Filesystem Cache
,这个从
Momery Buffer 到
Filesystem Cache
的过程就叫做
refresh
;
2
、当然在某些情况下,存在
Momery Buffer
和
Filesystem Cache
的数据可能会丢失,ES
是通过
translog
的机制来保证数据的可靠性的。其实现机制是接收到请求后,同时也会写入到 translog
中,当
Filesystem cache
中的数据写入到磁盘中时,才会清除掉,这个过程叫做 flush
;
3
、在
flush
过程中,内存中的缓冲将被清除,内容被写入一个新段,段的
fsync将创建一个新的提交点,并将内容刷新到磁盘,旧的 translog
将被删除并开始一个新的 translog
。
4
、
flush
触发的时机是定时触发(默认
30
分钟)或者
translog
变得太大(默认为 512M
)时;
补充:关于
Lucene
的
Segement
:
1
、
Lucene
索引是由多个段组成,段本身是一个功能齐全的倒排索引。
2
、段是不可变的,允许
Lucene
将新的文档增量地添加到索引中,而不用从头重建索引。
3
、对于每一个搜索请求而言,索引中的所有段都会被搜索,并且每个段会消耗CPU 的时钟周、文件句柄和内存。这意味着段的数量越多,搜索性能会越低。
4
、为了解决 这个 问题 ,
Elasticsearch
会合并小段到一个较大的段,提交新的合并段到磁盘,并删除那些旧的小段。
13、详细描述一下 Elasticsearch 更新和删除文档的过程。
1
、删除和更新也都是写操作,但是
Elasticsearch
中的文档是不可变的,因此不能被删除或者改动以展示其变更;
2
、磁盘上的每个段都有一个相应的
.del
文件。当删除请求发送后,文档并没有真的被删除,而是在.del
文件中被标记为删除。该文档依然能匹配查询,但是会在结果中被过滤掉。当段合并时,在.del
文件中被标记为删除的文档将不会被写入新段。
3
、在新的文档被创建时,
Elasticsearch
会为该文档指定一个版本号,当执行更新时,旧版本的文档在.del
文件中被标记为删除,新版本的文档被索引到一个新段。旧版本的文档依然能匹配查询,但是会在结果中被过滤掉。
14、详细描述一下 Elasticsearch 搜索的过程。
1
、搜索被执行成一个两阶段过程,我们称之为
Query Then Fetch
;
2
、在初始查询阶段时,查询会广播到索引中每一个分片拷贝(主分片或者副本分片)。 每个分片在本地执行搜索并构建一个匹配文档的大小为 from + size
的优先队列。