目录
官方文档介绍:ILM overview | Elasticsearch Guide [8.0] | Elastic
名称 | 版本 |
ElasticSearch | 7.X |
生命周期把索引分为四个阶段,Hot,Warm,Cold,和 Delete。
hot | 索引可写入,也可查询,也就是我们通常说的热数据。这种类型的数据节点执行集群内所有的操作,节点存储的数据经常被查询,属于IO、CPU密集型操作,因而需要CPU比较空闲和装有高性能IO读写的磁盘(如SSD)的服务器支撑 |
warm | 索引通常不会被写入,但仍然会被查询。这种类型的数据节点处理不太常用的索引(比如前一天的日志数据),这种数据查询的实时性不算高,索引为只读索引,不会有写入操作,因此不需要SSD磁盘存储,降低存储成本 |
cold | 索引不再被更新,并且很少被查询。这些信息仍然需要可搜索,但如果查询速度较慢也没关系。冷节点数据适合作为归档使用,比温节点查询还要少(比如半月以上的归档日志),这种类型数据一般很少查询,并不会消耗CPU性能及IO,但是存储容量会很大,需要更低成本的存储,例如OSS或S3;ES可以使用经过fuse协议挂载的对象存储作为后端存储 |
delete | 索引不再需要,可以安全地删除。 |
一、创建 ILM policy
PUT _ilm/policy/user_policy
{
"policy": {
"phases": {
"hot": {
"min_age": "0ms",
"actions": {
"rollover": {
"max_size": "200gb",
"max_age": "30d",
"max_docs": 100000
},
"set_priority": {
"priority": 100
}
}
},
"delete": {
"min_age": "90d",
"actions": {
"delete": {}
}
}
}
}
}
- 如果一个index的大小超过200GB,那么自动rollover
- 如果一个index日期已在30天前创建索引后,那么自动rollover
- 如果一个index的文档数超过100000,那么也会自动rollover
- 如果一个index创建的时间超过90天,那么也自动删除
注意:max_age是按照索引当前的创建时间滚动
使用Kibana创建
二、创建索引模板
PUT /_template/user_template
{
"index_patterns": [
"user-*"
],
"aliases": {
"user_read_alias": {}
},
"settings": {
"index": {
"lifecycle": {
#指定索引生命周期策略名称
"name": "user_policy",
#指定rollover别名(索引写入时所用的名称)
"rollover_alias": "user_write_alias"
},
"refresh_interval": "30s",
"number_of_shards": "5",
"number_of_replicas": "1"
}
},
"mappings": {
"properties": {
"name": {
"type": "keyword"
}
}
}
}
- 全局查询的读别名user_read_alias,数据跨索引查询使用
- setting里面关联lifecycle相关的配置,rollover需要的写别名user_write_alias
- ILM周期默认是10分钟检查一次,修改检查策略命令如下:
PUT _cluster/settings
{
"transient": {
"indices.lifecycle.poll_interval": "5s"
}
}
三、创建索引
PUT %3Cuser-%7Bnow%2Fd%7D-000001%3E
{
"aliases": {
"user_write_alias": {
"is_write_index": true
}
}
}
按照日期切割索引:Rollover API | Elasticsearch Guide [8.0] | Elastic
注意:
- is_write_index(属性为一个别名下的其中一个索引指定为写索引)为true;如果有rollover发生时,这个alias会自动指向最新rollover的index
- 索引建的名称应该是以 “-000001”等可自增长的字段结尾,否则策略不生效,es指定索引的别名写入
四、测试数据
POST /user_write_alias/_bulk?refresh=true
{"index":{"_id":"1"}}
{"name":"刘备"}
{"index":{"_id":"2"}}
{"name":"关羽"}
{"index":{"_id":"3"}}
{"name":"张飞"}
五、相关建议
由于写别名只能指向最新的index,所以有数据修改需求的场景该需求可能不合适,或者说不能直接使用。为每个索引建立自己独有的索引别名,方便对数据进行操作,提高查询效率。
- 多个索引指向同一别名
POST _aliases
{
"actions": [
{"add": {"indices": ["user-000001", "user-000002"], "alias": "user_read"}}
]
}
- 一个索引指向多个别名
POST _aliases
{
"actions": [
{"add": {"index": "user-000001", "aliases": ["user_2022_02_20", "user_update"]}}
]
}
ES中存储的数据也越来越多出现的问题:
- 查询数据越来越慢,聚合的速度慢的离谱,聚合的数据量大一些的话,可能出现超时失败,甚至OOM
- 磁盘和内存资源以肉眼可见的速度快速消耗,甚至出现满载的情况
- JVM频繁GC,fullGC的频率逐渐变高,甚至由于GC卡顿导致系统不可用的情况发生