elasticsearch的段合并机制

最新推荐文章于 2025-03-20 08:19:52 发布

Chris_Chris_

最新推荐文章于 2025-03-20 08:19:52 发布

阅读量821

点赞数 1

分类专栏：搜索引擎 # elasticsearch 文章标签： elasticsearch 搜索引擎

本文链接：https://blog.csdn.net/weixin_41029286/article/details/117047047

版权

搜索引擎同时被 2 个专栏收录

18 篇文章

订阅专栏

elasticsearch

18 篇文章

订阅专栏

es创建一个document的时候会向translog和in memory buffer中写入，为了近实时性，会将buffer中的数据写入到segment，进入了segment的数据才能被搜索到。

es默认每秒钟refresh创建一个segment
后台将这些小的segment合并成大的segment。每次的文档删除操作，会仅仅标记 Segment 中该文档为删除状态，而不会真正的立马物理删除，在段合并的时候不会把已删除的文档拷贝到新的segment中。

在这里插入图片描述
（上图中两个已经通过flush提交到磁盘的segment和一个未提交的segment一起合并到一个大的segment）

新的segment被flush到磁盘，写入一个包含新段且排除旧的和较小的段的新提交点。然后删除老的段

在这里插入图片描述
Elasticsearch 在默认情况下会对合并流程进行资源限制，为了给搜索功能留足够的资源。默认的限速配置为20mb，如果磁盘转速高可以适当调大

PUT /_cluster/settings
{
    "persistent" : {
        "indices.store.throttle.max_bytes_per_sec" : "100mb"
	} 
}

optimize API是一个合并的api，它会将一个分片强制合并到 max_num_segments 参数指定大小的段数目

POST /logstash-2014-10/_optimize?max_num_segments=1
#java中
forceMergeRequest.maxNumSegments(1)

segment归并策略policy：
可以在setting中配置

#默认2MB，小于这个大小的 segment，优先被归并
"index.merge.policy.floor_segment": "10mb"
#归并的线程数
"index.merge.scheduler.max_thread_count": "1"
#默认一次最多归并 10 个segment
"index.merge.policy.max_merge_at_once": "10"
#默认optimize 时一次最多归并30个segment。
"index.merge.policy.max_merge_at_once_explicit": "10"
#默认5GB，大于这个大小的segment，不参与归并。optimize除外
"index.merge.policy.max_merged_segment": "5gb"