Elasticsearch7.X ILM索引生命周期管理(冷热分离)

本文探讨了如何通过Elasticsearch的索引生命周期管理来解决日志数据过多导致的性能问题,包括设置策略、配置节点标签和索引模板,以实现数据冷热分离,提升存储效率和降低成本。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、“索引生命周期管理”概述

Elasticsearch索引生命周期管理指:Elasticsearch从设置、创建、打开、关闭、删除的全生命周期过程的管理。

二、为什么要使用“索引生命周期管理”

1、ELK集群之前的索引模式,通过app_name和日期区分,随着时间累积,索引数量逐渐增多,造成服务器内存、CPU、IO等指标上涨;

2、需要创建额外定时任务执行索引删除脚本,这种方式无法避免kafka重复消费造成的大量已删除索引重建,并无法用脚本按日期删除;

3、根据日志查询和存储的特点,将数据冷热分离,热数据使用高性能磁盘提高写入与查询效率,温数据只做查询不影响数据写入性能,冷数据用OSS等低价存储作为归档节约存储成本。

三、面临的问题

1、ES生命周期策略要紧密贴合业务模型

2、数据冷热节点和生命周期策略需要合理规划

3、数据高可用性规划(单纯日志场景对数据可用性并不高,可以规划0副本索引,减小系统开销)

四、配置方法及原理

1、生命周期管理的本质--RollOver

当现有索引被认为太大或太旧时,滚动索引API将别名滚动到新索引。该API接受一个别名和一个条件列表。别名必须只指向一个索引。如果索引满足指定条件,则创建一个新索引,并将别名切换到指向新索引的位置

2、使用场景

RollOver适合存放日志数据、索引非常大、索引实时导入数据等场景

在索引模板配置好索引的setting、mapping等参数,然后配置好_rollover规则,es会帮助你处理剩余的事情

索引生命周期管理使用了rollover的特性,将rollover分成四个阶段。

3、四个阶段

ES索引生命周期管理分为4个阶段:hot、warm、cold、delete,其中hot主要负责对索引进行rollover操作,warm、cold、delete分别对rollover后的数据进一步处理

阶段描述
hot主要处理时序数据的实时写入
warm可以用来查询,但是不再写入
cold索引不再有更新操作,并且查询也会很少
delete数据将被删除

 

注意:上述四个阶段不是必须同时存在

4、配置方法

实现索引生命周期,必须同时存在如下要素,缺一不可,上述四个阶段可以根据实际情况配置,并为ES数据节点添加相应的标签。

配置项描述
节点标签配置数据节点标签,区分热节点、温节点以及冷节点
生命周期策略定义热阶段的大小、最大文档数或最大时长,温阶段是否缩小索引、冷阶段存在时长及删除周期
索引模板引用生命周期策略模板中指定引用的生命周期策略,按模板规则创建索引后,加载生命周期策略
索引模板指定调度节点将新建索引分片都分配到热节点

4.1、节点

热节点

这种类型的数据节点执行集群内所有的操作,节点存储的数据经常被查询,属于IO、CPU密集型操作,因而需要CPU比较空闲和装有高性能IO读写的磁盘(如SSD)的服务器支撑。

1

2

3

4

5

6

7

#配置方法

vim /data/app/elasticsearch/config/elasticsearch.yml

 

#每个热节点加入如下配置并重启服务

node.attr.box_type: hot

node.attr.rack: rack1

#这两项配置是为节点增加标签,具体名称并不是写死的,与后面模板和策略配置有关

温节点

这种类型的数据节点处理不太常用的索引(比如前一天的日志数据),这种数据查询的实时性不算高,索引为只读索引,不会有写入操作,因此不需要SSD磁盘存储,降低存储成本。

1

2

3

4

5

6

#配置方法

vim /data/app/elasticsearch/config/elasticsearch.yml

 

#每个温节点加入如下配置并重启服务

node.attr.box_type: warm

node.attr.rack: rack1

冷节点

冷节点数据适合作为归档使用,比温节点查询还要少(比如半月以上的归档日志),这种类型数据一般很少查询,并不会消耗CPU性能及IO,但是存储容量会很大,需要更低成本的存储,例如OSS或S3;ES可以使用经过fuse协议挂载的对象存储作为后端存储。

1

2

3

4

5

6

#配置方法

vim /data/app/elasticsearch/config/elasticsearch.yml

 

#每个温节点加入如下配置并重启服务

node.attr.box_type: cold

node.attr.rack: rack1

4.2、生命周期策略

配置方法:

1、利用Kibana新建策略并指定到模板

打开Kibana--->管理--->索引生命周期策略

创建策略

 

 

 

 

 

 保存策略并在创建模板后添加到模板中

 

 2、调用ESApi将策略写入ES

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

curl -XPUT -H "content-type:application/json" http://es_addr:9200/_ilm/policy/test_policy \

 

-d "{

    "policy": {

        "phases": {

            "hot": {

                "min_age""0ms",

                "actions": {

                    "rollover": {

                        "max_age""1h",

                        "max_size""10mb",

                        "max_docs": 50000

                    },

                    "set_priority": {

                        "priority": 100

                    }

                }

            },

            "warm": {

                "min_age""0ms",

                "actions": {

                    "allocate": {

                        "number_of_replicas": 0,

                        "include": {},

                        "exclude": {},

                        "require": {

                            "box_type""warm"

                        }

                    },

                    "shrink": {

                        "number_of_shards": 3

                    },

                    "set_priority": {

                        "priority": 50

                    }

                }

            },

            "cold": {

                "min_age""1h",

                "actions": {

                    "freeze": {},

                    "allocate": {

                        "include": {},

                        "exclude": {},

                        "require": {

                            "box_type""cold"

                        }

                    },

                    "set_priority": {

                        "priority": 0

                    }

                }

            },

            "delete": {

                "min_age""2h",

                "actions": {

                    "delete": {}

                }

            }

        }

    }"

4.3、索引模板

以下为索引模板配置,要有以下配置项策略才会生效,其他选项如字段mapping等请参考官方文档

1

2

3

4

5

6

7

8

9

10

11

PUT _template/my_template

{

  "index_patterns": ["test-*"],

  "settings": {

    "number_of_shards": 5,

    "number_of_replicas": 0,

    "index.lifecycle.name""test_policy"#指定索引生命周期策略名称

    "index.lifecycle.rollover_alias""test-alias"#指定rollover别名(索引写入与读取时所用的名称)

    "routing.allocation.require.box_type""hot" #指定索引新建时所分配的节点(此项不指定会默认分配到所有节点)

  }

}

注意:索引创建的名称应该是以 “-00001”等可自增长的字段结尾,否则策略不生效,es指定索引的别名写入

<think>好的,我现在需要详细解释Elasticsearch冷热分离架构。首先,冷热分离是什么?它主要是为了优化数据存储成本和提高性能,通过将不同阶段的数据存储在不同类型的硬件上。比如,热节点存放最新、频繁访问的数据,使用高性能的SSD;温节点或冷节点存放较少访问的数据,使用大容量、低成本的HDD。 接下来要了解冷热分离的实现方式。用户可能需要知道如何配置节点角色,设置索引的生命周期策略(ILM),以及数据如何自动迁移。需要提到Elasticsearch的节点属性配置,比如给节点打标签,然后在索引策略中指定分配策略。 然后要考虑使用场景。比如日志分析系统,最新的日志需要快速查询,旧日志偶尔需要查询,这时候冷热分离就很合适。另外,可能涉及到的ILM阶段:hot, warm, cold, delete。需要详细说明每个阶段的作用和配置方法。 用户还可能关心具体操作步骤,比如如何标记节点为热或冷节点,如何创建生命周期策略,如何应用到索引上。需要给出具体的配置示例,比如elasticsearch.yml中的节点配置,以及使用Kibana或API创建策略的方法。 另外,需要注意冷热分离的优缺点。优点包括成本优化、性能提升;缺点可能涉及配置复杂,需要合理规划数据生命周期,迁移过程中的性能影响等。可能还需要提到分片分配策略,比如使用shard allocation awareness来确保数据正确分布在不同的节点上。 还要考虑版本兼容性,不同版本的Elasticsearch冷热分离的支持可能不同,比如ILM是在6.6版本之后引入的,可能需要确认用户使用的版本是否支持。 最后,常见问题解答,比如如何处理节点故障,如何监控数据迁移状态,如何调整策略等。可能还需要给出一些最佳实践,比如如何根据数据访问模式调整每个阶段的时间长度,如何选择合适的硬件配置等。 总结下来,回答的结构应该是先介绍概念,再讲实现方法,接着是配置步骤,然后优缺点和使用场景,最后常见问题和注意事项。需要确保语言清晰,步骤具体,示例明确,帮助用户全面理解冷热分离的各个方面。</think>### **1. 直接答案** **Elasticsearch 冷热分离(Hot-Warm-Cold Architecture)是一种通过硬件分层优化存储成本与查询性能的架构模式**: - **热节点(Hot)**:存储**最新、高频访问**数据,使用高性能硬件(如 SSD)。 - **温节点(Warm)**:存储**近期、中低频访问**数据,使用普通硬盘(HDD)。 - **冷节点(Cold)**:存储**历史、极少访问**数据,使用高容量低成本存储(如归档 HDD 或云存储)。 - **删除阶段(Delete)**:按策略自动清理过期数据。 --- ### **2. 核心原理与价值** | 层级 | 数据特点 | 硬件配置 | 核心目标 | |-------|------------------------|----------------|---------------------------| | Hot | 写入和查询频繁 | SSD、高 CPU | 保障实时性能 | | Warm | 查询较少,偶尔更新 | HDD、中等 CPU | 平衡性能与成本 | | Cold | 只读,几乎不查询 | 大容量 HDD | 最小化存储成本 | **核心价值**: - **降低成本**:冷数据使用廉价存储,热数据集中资源保障性能。 - **延长硬件生命周期**:旧服务器可作为温/冷节点复用。 - **自动化管理**:通过 ILM(Index Lifecycle Management)自动迁移数据。 --- ### **3. 配置冷热分离的步骤** #### **(1) 标记节点角色** 在 `elasticsearch.yml` 中为节点打标签,例如: ```yaml # 热节点配置 node.roles: [data_hot, data] node.attr.data_type: hot # 温节点配置 node.roles: [data_warm, data] node.attr.data_type: warm # 冷节点配置 node.roles: [data_cold, data] node.attr.data_type: cold ``` #### **(2) 配置 ILM 策略** 通过 Kibana 或 API 定义生命周期策略,例如: ```json PUT _ilm/policy/hot_warm_cold_policy { "policy": { "phases": { "hot": { "min_age": "0ms", "actions": { "rollover": { "max_size": "50GB", "max_age": "30d" }, "set_priority": { "priority": 100 } } }, "warm": { "min_age": "30d", "actions": { "forcemerge": { "max_num_segments": 1 }, // 合并段提升查询性能 "allocate": { "require": { "data_type": "warm" } // 迁移到温节点 }, "set_priority": { "priority": 50 } } }, "cold": { "min_age": "90d", "actions": { "allocate": { "require": { "data_type": "cold" } // 迁移到冷节点 }, "freeze": {} // 冻结索引(只读) } }, "delete": { "min_age": "365d", "actions": { "delete": {} } } } } } ``` #### **(3) 创建索引模板关联 ILM** ```json PUT _index_template/logs_template { "index_patterns": ["logs-*"], "template": { "settings": { "index.lifecycle.name": "hot_warm_cold_policy", "index.routing.allocation.require.data_type": "hot" // 初始分配到热节点 } } } ``` --- ### **4. 关键优化技巧** #### **(1) 数据迁移控制** - **手动迁移(API)**: ```json POST /logs-2023.10.01/_settings { "index.routing.allocation.require.data_type": "warm" } ``` - **自动迁移(ILM)**:通过 `min_age` 触发阶段切换(从 hot → warm → cold)。 #### **(2) 性能优化** - **热节点**:保留更多内存和 CPU,关闭 `_source`(需权衡写入性能)。 - **温节点**:执行 `forcemerge` 减少段数量,降低查询延迟。 - **冷节点**:启用索引冻结(`freeze`),减少内存占用。 #### **(3) 监控与告警** - 通过 Kibana Stack Monitoring 观察各节点负载。 - 设置 ILM 阶段执行失败告警(如快照失败、迁移超时)。 --- ### **5. 常见问题解答** #### **(1) 如何验证数据已迁移到冷节点?** ```json GET /logs-2023.10.01/_settings?include_defaults=true // 检查 "routing.allocation.require.data_type" 是否为 "cold" ``` #### **(2) 冷节点故障会影响查询吗?** - **冻结索引需先解冻**: ```json POST /logs-2023.10.01/_unfreeze // 解冻后数据可查询,但耗时较长 ``` - **建议**:冷节点数据应视为归档,非必要不查询。 #### **(3) 能否跳过温节点,直接从热节点到冷节点?** - **可以**:在 ILM 策略中删除 `warm` 阶段,调整 `min_age` 直接进入 `cold` 阶段。 --- ### **6. 总结** - **适用场景**:日志分析、时序数据(如监控指标)、电商订单历史等**时间序列数据**。 - **核心收益**:硬件成本降低 30%~70%,同时保障热数据性能。 - **注意事项**: - 提前规划硬件资源与数据生命周期。 - 测试 ILM 策略的时效性(避免阶段切换延迟)。 - 冷节点数据建议配合快照(Snapshot)实现多重备份。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值