ElasticSearch-索引生命周期(ILM)-日期分割索引

W_Meng_H

已于 2022-02-26 13:43:29 修改

阅读量3.7k

点赞数 2

分类专栏：经验总结 # ElasticSearch 文章标签： elasticsearch 搜索引擎大数据

于 2022-02-20 15:03:40 首次发布

本文链接：https://blog.csdn.net/W_Meng_H/article/details/123027705

版权

经验总结同时被 2 个专栏收录

64 篇文章 1 订阅

订阅专栏

ElasticSearch

16 篇文章 0 订阅

订阅专栏

名称	版本
ElasticSearch	7.X

生命周期把索引分为四个阶段，Hot，Warm，Cold，和 Delete。

hot	索引可写入，也可查询，也就是我们通常说的热数据。这种类型的数据节点执行集群内所有的操作，节点存储的数据经常被查询，属于IO、CPU密集型操作，因而需要CPU比较空闲和装有高性能IO读写的磁盘（如SSD）的服务器支撑
warm	索引通常不会被写入，但仍然会被查询。这种类型的数据节点处理不太常用的索引（比如前一天的日志数据），这种数据查询的实时性不算高，索引为只读索引，不会有写入操作，因此不需要SSD磁盘存储，降低存储成本
cold	索引不再被更新，并且很少被查询。这些信息仍然需要可搜索，但如果查询速度较慢也没关系。冷节点数据适合作为归档使用，比温节点查询还要少（比如半月以上的归档日志），这种类型数据一般很少查询，并不会消耗CPU性能及IO，但是存储容量会很大，需要更低成本的存储，例如OSS或S3；ES可以使用经过fuse协议挂载的对象存储作为后端存储
delete	索引不再需要，可以安全地删除。

一、创建 ILM policy

PUT _ilm/policy/user_policy
{
    "policy": {
		"phases": {
          "hot": {
            "min_age": "0ms",
            "actions": {
              "rollover": {
                "max_size": "200gb",
                "max_age": "30d",
                "max_docs": 100000
              },
              "set_priority": {
                "priority": 100
              }
            }
          },
          "delete": {
            "min_age": "90d",
            "actions": {
              "delete": {}
            }
          }
        }
    }
}

如果一个index的大小超过200GB，那么自动rollover
如果一个index日期已在30天前创建索引后，那么自动rollover
如果一个index的文档数超过100000，那么也会自动rollover
如果一个index创建的时间超过90天，那么也自动删除

注意：max_age是按照索引当前的创建时间滚动

使用Kibana创建

二、创建索引模板

PUT /_template/user_template
{
  "index_patterns": [
    "user-*"
  ],
  "aliases": {
    "user_read_alias": {}
  },
  "settings": {
    "index": {
      "lifecycle": {
        #指定索引生命周期策略名称
        "name": "user_policy",
        #指定rollover别名（索引写入时所用的名称）
        "rollover_alias": "user_write_alias"
      },
      "refresh_interval": "30s",
      "number_of_shards": "5",
      "number_of_replicas": "1"
    }
  },
  "mappings": {
    "properties": {
      "name": {
        "type": "keyword"
      }
    }
  }
}

全局查询的读别名user_read_alias，数据跨索引查询使用
setting里面关联lifecycle相关的配置，rollover需要的写别名user_write_alias
ILM周期默认是10分钟检查一次，修改检查策略命令如下：

PUT _cluster/settings
{
  "transient": {
    "indices.lifecycle.poll_interval": "5s"
  }
}

三、创建索引

PUT %3Cuser-%7Bnow%2Fd%7D-000001%3E
{
  "aliases": {
    "user_write_alias": {
      "is_write_index": true
    }
  }
}

按照日期切割索引：Rollover API | Elasticsearch Guide [8.0] | Elastic

注意：

is_write_index(属性为一个别名下的其中一个索引指定为写索引)为true；如果有rollover发生时，这个alias会自动指向最新rollover的index
索引建的名称应该是以 “-000001”等可自增长的字段结尾，否则策略不生效，es指定索引的别名写入

四、测试数据

POST /user_write_alias/_bulk?refresh=true
{"index":{"_id":"1"}}
{"name":"刘备"}
{"index":{"_id":"2"}}
{"name":"关羽"}
{"index":{"_id":"3"}}
{"name":"张飞"}

五、相关建议

由于写别名只能指向最新的index，所以有数据修改需求的场景该需求可能不合适，或者说不能直接使用。为每个索引建立自己独有的索引别名，方便对数据进行操作，提高查询效率。

多个索引指向同一别名

POST _aliases
{
  "actions": [
    {"add": {"indices": ["user-000001", "user-000002"], "alias": "user_read"}}
  ]
}

一个索引指向多个别名

POST _aliases
{
  "actions": [
    {"add": {"index": "user-000001", "aliases": ["user_2022_02_20", "user_update"]}}
  ]
}

ES中存储的数据也越来越多出现的问题：

查询数据越来越慢，聚合的速度慢的离谱，聚合的数据量大一些的话，可能出现超时失败，甚至OOM
磁盘和内存资源以肉眼可见的速度快速消耗，甚至出现满载的情况
JVM频繁GC，fullGC的频率逐渐变高，甚至由于GC卡顿导致系统不可用的情况发生

W_Meng_H

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
ElasticSearch-索引生命周期(ILM)-日期分割索引

官方文档介绍：ILM overview | Elasticsearch Guide [8.0] | Elastic名称版本 ElasticSearch 7.X 生命周期把索引分为四个阶段，Hot，Warm，Cold，和 Delete。hot 索引可写入，也可查询，也就是我们通常说的热数据。这种类型的数据节点执行集群内所有的操作，节点存储的数据经常被查询，属于IO、CPU密集型操作，因而需要CPU比较空闲和装有高性能IO读写的磁盘（如SSD）的服务器支撑 warm
复制链接

扫一扫

专栏目录