eval ssei 是什么版_elasticsearch

最新推荐文章于 2023-08-26 19:33:58 发布

Arnold Pei

最新推荐文章于 2023-08-26 19:33:58 发布

阅读量203

点赞数

文章标签： eval ssei 是什么版

本文链接：https://blog.csdn.net/weixin_36462387/article/details/114981145

版权

Elasticsearch索引拆分方案

[TOC]

一、概况

项目中，由于Elasticsearch单个索引数据量大，索引中部分数据不常用，在搜索和写入文档时，效率较低。为了减小单个索引的数据量，提升搜索和文档写入效率，将大索引根据一定的规则拆分为小的索引。拆分索引的关键点在于建立索引，文档同步，多索引搜索。

建立索引的关键问题是索引的设置以及字段的属性设置，最常见的问题是，某个字段我们希望Elasticsearch 按照我们的想法进行分词。采用自动生成索引(默认模板)，索引字段的类型就会根据第一条文档的数据进行字段转换，无法实现具体某个字段使用我们想要的分词方式。另外就是无法使用自定义分词器，索引的默认分片数为5，无法根据我们制定的分片数进行分配。

为了实现我们这种自动创建索引的特殊要求，Elasticsearch也提供了索引模板API。

索引模板，就是创建索引的模板，模板中包含公共的配置(Settings)和映射(Mappings)，并包含一个简单触发条件，及条件满足时使用该模板创建一个新的索引。

模板只在创建索引时应用。更改模板不会对现有索引产生影响。当使用create index API时，作为create index调用的一部分定义的设置/映射将优先于模板中定义的任何匹配设置/映射。

文档同步和搜索，我们都采用了别名的形式。索引别名，就像一个快捷方式或软连接，可以指向一个或多个索引，也可以给任何一个需要索引名的API来使用，别名不能与索引具有相同的名称。别名带给我们极大的灵活性，允许我们在运行的集群中可以无缝的从一个索引切换到另一个索引，给多个索引分组，给索引的一个子集创建。因为使用别名，你的应用可以在零停机的情况下从旧索引迁移到新索引。

由于文档同步，必须指定一个唯一的索引才能成功。原来单索引时，我们的索引采取了 “索引名称_v1”的形式，为方便在零停机的情况下重建索引，文档更新也新建了一个专门的索引别名。拆分索引后，索引名称规范为“索引名称_YYMM”按月拆分(包括但不限于此种方式)，就会出现多个索引，此时就不在方便新增专门的索引别名用于文档更新，反而用索引名字直接进行文档更新，就会更加的方便，直接和准确。

文档同步使用索引名称，搜索依旧使用别名的形式。多个索引，有相同的别名，索引拆分，文档分属不同的索引，但因为有相同的别名，使用别名搜索时，依然可以将数据搜索出来。

通过建立索引，文档同步，多索引搜索实现了单索引到多索引的拆分。数据还是那些数据，依然能搜索出来，索引数变多了，每个索引的数据减少，同步文档速度就可以提高。搜索也可以根据业务需求只查询部分索引，提升了查询速度，也可以查询所有数据，根据实际场景可自由变换。

二、索引拆分规则

索引拆分，可以根据创建时间拆分，如：”索引名称_yyyyMM“，”索引名称_yyyy“；也可以根据主键ID求余的方式来进行拆分，如：”索引名称_0“,”索引名称_1“。

具体的拆分规则根据业务需要进行，需要注意的是，无论根据创建时间还是根据主键ID求余来拆分，都要求根据拆分的值，是文档中不变的值，才能唯一确定一个索引，进行文档的存储，如：主键ID，创建时间；不可为变化的值，有可能变化的值，就无法唯一确定一个索引进行文档存储，如：状态，那就会出现当前在这个索引，状态改变后再另外的索引，这样每个索引都有同一条状态不同的数据，搜索时就会不准确。

本文将根据创建时间进行索引拆分。

思路：

创建索引模板

同步文档时，选用的索引名称以"索引名称_yyyyMM"命名，自动创建带别名的索引

如果文档同步到新索引，原索引中的文档需删除

三、创建索引模板

以商品评论索引为例，将单索引拆分为多索引，根据以下规则，在同步文档时，如果无索引会字段根据模板生成：

索引名称的规则“goods_comment_202010”

索引别名为“goods_comment”

number_of_shards分片数为3

配置Settings

定义Mappings字段及其类型

具体模板如下所示：

{

"order" : 0,

"index_patterns" : [

"goods_comment*"

"settings" : {

"index" : {

"max_result_window" : "100000",

"analysis" : {

"filter" : {

"by_stop_filter" : {

"type" : "stop",

"stopwords" : [

" "

]

"pinyin_first_letter_and_full_pinyin_filter" : {

"keep_none_chinese_in_first_letter" : "true",

"lowercase" : "true",

"keep_original" : "true",

"keep_first_letter" : "true",

"trim_whitespace" : "true",

"type" : "pinyin",

"keep_none_chinese" : "true",

"limit_first_letter_length" : "16",

"keep_full_pinyin" : "true"

"by_synonym_filter" : {

"type" : "synonym",

"synonyms_path" : "analysis/synonym.txt"

"full_pinyin_filter" : {

"keep_none_chinese_in_first_letter" : "true",

"lowercase" : "true",

"keep_original" : "true",

"keep_first_letter" : "false",

"trim_whitespace" : "true",

"type" : "pinyin",

"keep_none_chinese" : "true",

"limit_first_letter_length" : "16",

"keep_full_pinyin" : "true"

}

"char_filter" : {

"by_char_filter" : {

"type" : "mapping",

"mappings" : [

"| => |"

]

}

"analyzer" : {

"by_max_word" : {

"filter" : [

"by_synonym_filter",

"lowercase"

"char_filter" : [

"html_strip"

"type" : "custom",

"tokenizer" : "ik_max_word"

}

"tokenizer" : {

"my_pinyin" : {

"lowercase" : "true",

"keep_original" : "true",

"remove_duplicated_term" : "true",

"keep_separate_first_letter" : "false",

"type" : "pinyin",

"limit_first_letter_length" : "16",

"keep_full_pinyin" : "true"

}

"number_of_shards" : "3",

"number_of_replicas" : "1"

}

"mappings" : {

"_doc" : {

"properties" : {

"is_img" : {

"type" : "integer"

"gid" : {

"type" : "integer"

"pubtime" : {

"type" : "integer"

}

....

}

"aliases" : {

"goods_comment" : { }

}

上述模板定义，看似复杂，拆分来看，主要为如下几个部分：

{

"order": 0, // 模板优先级

"index_patterns": ["goods_comment*"],// 模板匹配的名称方式

"settings": {...}, // 索引设置

"mappings": {...}, // 索引中各字段的映射定义

"aliases": {...} // 索引的别名

}

3.1 模板优先级

有时候，一个模板可能绝大部分符合新建索引的需求，但是局部需要微调，此时，如果复制旧的模板，修改该模板后，成为一个新的索引模板即可达到我们的需求，但是这操作略显重复。此时，可以采用模板叠加与覆盖来操作。模板的优先级是通过模板中的 order 字段定义的，数字越大，优先级越高。

如下为定义所有以 te 开头的索引的模板：

{

"order": 0,

"index_patterns": "te*",

"settings": {

"number_of_shards": 1

"mappings": {

"type1": {

"_source": {

"enabled": false

}

索引模板是有序合并的。如何想单独修改某一小类索引的一两处单独设置，可以在累加一层模板。

{

"order": 1,

"index_patterns": "tete*",

"settings": {

"number_of_shards": 2

"mappings": {

"type1": {

"_all": {

"enabled": false

}

上述第一个模板的 order 为0，第二个模板的 order 为1，优先级高于第一个模板，其会覆盖第一个模板中的相同项。所以对于所有以 tete 开头的索引模板效果如下：

{

"settings": {

"number_of_shards": 2

"mappings": {

"type1": {

"_source": {

"enabled": false

"_all": {

"enabled": false

}

两个模板叠加了，项目的字段，优先级高的覆盖了优先级低的，如分片数。

3.2 模板匹配的名称

索引模板中的 "index_patterns" 字段定义的是该索引模板所应用的索引情况。如 "index_patterns": "tete*" 所表示的含义是，当新建索引时，所有以 tete 开头的索引都会自动匹配到该索引模板。利用该模板进行相应的设置和字段添加等。

3.3 settings 部分

索引模板中的 settings 部分一般定义的是索引的主分片、拷贝分片、刷新时间、自定义分析器等。常见的 settings 部分结构如下：

"settings": {

"index": {

"analysis": {...}, // 自定义的分析器

"number_of_shards": "32", // 主分片的个数

"number_of_replicas": "1", // 主分片的拷贝分片个数

"refresh_interval": "5s" // 刷新时间

}

建立的索引，不会立马查到，这是为什么 Elasticsearch 为 near-real-time(接近实时)的原因，需要配置刷新时间，默认的是 1s。settings 的设置中，重点是自定义分析器的设置。

分析器是三个顺序执行的组件的结合。他们分别是字符过滤器、分词器、标记过滤器。字符过滤器是让字符串在被分词前变得更加整洁。一个分析器可能包含零到多个字符过滤器(character_filter)。

分词器将字符串分割成单独的词(terms)或标记(tokens)。一个分析器必须包含一个分词器。

分词器分词的结果的标记流会根据各自的情况，传递给特定的标记过滤器。标记过滤器可能修改、添加或删除标记。

创建的创建自定义分析器结构如下：

"settings": {

"index": {

"analysis": {

"char_filter": { ... }, // 用户自定义字符过滤器

"tokenizer": { ... }, // 用户自定义分词器

"filter": { ... }, // 用户自定义标记过滤器

"analyzer": { ... } // 用户自定义分析器

...

}

3.4 索引类型的字段映射

索引模板中，映射字段所对应的常用结构是：

"mappings": {

"_doc": { // 索引下的类型 _doc 应用该映射

"dynamic_templates": [ ... ], // 动态映射部分，用于未定义的 my_type 下字段

"properties": { ... } // 自定义字段的响应映射

}

"_doc" 是索引下的一个类型，Elasticsearch 7.x仅支持"_doc"作为索引类型，Elasticsearch 6.x推荐使用"_doc"为索引类型。

动态映射

动态映射 "dynamic_templates" 字段对应的是一个数组，数组中的元素是一个个字段的映射模板。每个字段的映射模板都有一个名字用户描述这个模板的用途，一个 mapping 字段由于指明这个映射如何使用，和至少一个参数(例如 match)来定义这个模板适用于哪个字段。

dynamic_templates 字段对应的字段模板结构如下：

{

"string_fields": { // 字段映射模板的名称，一般为"类型_fields"的命名方式

"match": "*", // 匹配的字段名为所有

"match_mapping_type": "string", // 限制匹配的字段类型，只能是 string 类型

"mapping": { ... } // 字段的处理方式

}

自定义字段映射

针对索引类型中存在的字段，除了可以采用动态模板的方式，还可以采用定义定义的方式，常见的自定义结构如下：

"mappings": {

"my_type": {

"dynamic_templates": [ ... ],

"properties": {

"user_city": { // 字段名

"analyzer": "lowercase_analyzer", // 字段分析器

"index": "analyzed", // 字段索引方式定义索引

"type": "string", // 字段数据类型定义为 string

"fields": { // 定义一个名为 user_city.raw 的嵌入的不分析字段

"raw": {

"ignore_above": 512,

"index": "not_analyzed",

"type": "string"

}

}，

"money":{

"type": "double",

"doc_values": true

}

...

}

3.5 别名

即使你认为现在的索引设计已经是完美的了，当你的应用在生产环境使用时，还是有可能在今后有一些改变的。所以请做好准备：在应用中使用别名而不是索引。然后你就可以在任何时候重建索引。别名的开销很小，应当广泛使用。利用索引别名，可以实现零停机时间重新索引。

定义方式如下：

{

"order": 0, // 模板优先级

"index_patterns": "goods_comment*", // 模板匹配的名称方式

"settings": {...}, // 索引设置

"mappings": {...}, // 索引中各字段的映射定义

"aliases": {

"goods_comment":{}

}

以上只是简单的介绍了索引模板和模板内的组成部分的介绍，详情请见Elasticsearch官方文档。

有了以上的知识，我们就可以利用索引模板的API，来对模板进行创建，查询，删除操作了。

3.6 索引模板管理

创建索引模板

PUT _template/goods_comment_template

{

"order": 0, // 模板优先级

"index_patterns": "goods_comment*", // 模板匹配的名称方式

"settings": {...}, // 索引设置

"mappings": {...}, // 索引中各字段的映射定义

"aliases": {

"goods_comment":{}

}

查看索引模板

GET _template // 查看所有模板

GET _template/temp* // 查看与通配符相匹配的模板

GET _template/temp1,temp2 // 查看多个模板

GET _template/shop_template // 查看指定模板

判断模板是否存在

HEAD _template/shop_tem

结果：

a) 如果存在, 响应结果是: 200 - OK

b) 如果不存在, 响应结果是: 404 - Not Found

删除索引模板

DELETE _template/shop_template // 删除上述创建的模板

如果模板不存在, 将抛出404 错误

四、同步文档，自动创建索引

前面创建了商品评论的索引模板(goods_comment_template)，同步文档时，指定索引名称为“goods_comment_202010”，如果索引不存在，便会创建名为“goods_comment_202010”的索引，同时创建好“goods_comment”别名。索引的settings和mappings都会根据模板定义的规则生成好。索引创建成功，此时该索引便能正常使用啦。

商品评论业务中，同步文档是在代码中实现，需要根据商品评论的创建时间，以“goods_comment_yyyyMM”的形式获取完整的索引名称(如：goods_comment_202010)，同步文档指定goods_comment_202010，即可将数据同步到该索引。

五、别名搜索

多个商品评论索引，每个索引都有“goods_comment“别名，使用别名进行搜索，便能从这多个索引中获取数据。

同理，其他业务索引实现搜索，都要求使用别名形式。

六、可能存在的问题点

索引创建后，并不是一成不变的，随着业务的发展，新增字段也是较常见的。原来单索引，新增一个字段，只需要在mappings新增字段，重建索引，迁移数据，切换别名即可。拆分后的多索引，工作量便会成被增加。

修改索引模板，只会对后续生成的索引有作用，之前生成的索引，如需调整，需要手动或者使用脚本的形式进行重建并迁移数据。

七、附录

demo演示，也是体验索引拆分的一个实现过程。

7.1 查询索引模板列表

查看ES中的所有索引模板列表

命令：

GET _cat/templates?v

结果：

name index_patterns order version

kibana_index_template:.kibana [.kibana] 0

.monitoring-kibana [.monitoring-kibana-6-*] 0 6050399

.management-beats [.management-beats] 0 67000

7.2 创建索引模板

命令：

PUT _template/demo_template

{

"order": 0,

"index_patterns": [

"demo*"

"settings": {

"index": {

"number_of_shards": 2,

"number_of_replicas": 0,

"max_result_window": 100000

}

"aliases": {

"demo": {}

}

结果：

{

"acknowledged" : true

}

7.3 查看索引模板详情

命令：

GET _template/demo_template

结果：

{

"demo_template" : {

"order" : 0,

"index_patterns" : [

"demo*"

"settings" : {

"index" : {

"max_result_window" : "100000",

"number_of_shards" : "2",

"number_of_replicas" : "0"

}

"mappings" : { },

"aliases" : {

"demo" : { }

}

7.4 查询索引数据

命令：

GET demo_v1/_search

结果：

{

"error" : {

"root_cause" : [

{

"type" : "index_not_found_exception",

"reason" : "no such index",

"resource.type" : "index_or_alias",

"resource.id" : "demo_v1",

"index_uuid" : "_na_",

"index" : "demo_v1"

}

"type" : "index_not_found_exception",

"reason" : "no such index",

"resource.type" : "index_or_alias",

"resource.id" : "demo_v1",

"index_uuid" : "_na_",

"index" : "demo_v1"

"status" : 404

}

7.5 创建文档

在此之前demo_v1索引不存在，通过创建文档，自动生成索引，新创建的demo_v1将根据demo_template索引模板生成。

命令：

POST demo_v1/_doc

{

"id": 1,

"title": "这是一条数据"

}

结果：

{

"_index" : "demo_v1",

"_type" : "_doc",

"_id" : "20upIHUBO6Fj2CIJUFPr",

"_version" : 1,

"result" : "created",

"_shards" : {

"total" : 1,

"successful" : 1,

"failed" : 0

"_seq_no" : 0,

"_primary_term" : 1

}

查看数据

GET demo_v1/_search 用索引名称进行查询

GET demo/_search 用别名进行查询

{

"took" : 0,

"timed_out" : false,

"_shards" : {

"total" : 2,

"successful" : 2,

"skipped" : 0,

"failed" : 0

"hits" : {

"total" : 1,

"max_score" : 1.0,

"hits" : [

{

"_index" : "demo_v1",

"_type" : "_doc",

"_id" : "20upIHUBO6Fj2CIJUFPr",

"_score" : 1.0,

"_source" : {

"id" : 1,

"title" : "这是一条数据"

}

]

}

发现使用索引名称和别名都能搜索出来。但是我们并未单独创建索引别名。我们来查看一下demo_v1索引的结构。

GET demo_v1

{

"demo_v1" : {

"aliases" : {

"demo" : { }

"mappings" : {

"_doc" : {

"properties" : {

"id" : {

"type" : "long"

"title" : {

"type" : "text",

"fields" : {

"keyword" : {

"type" : "keyword",

"ignore_above" : 256

}

"settings" : {

"index" : {

"number_of_shards" : "2",

"provided_name" : "demo_v1",

"max_result_window" : "100000",

"creation_date" : "1602570768526",

"number_of_replicas" : "0",

"uuid" : "WrXtDB5eRzmU-xX1vAUCrA",

"version" : {

"created" : "6070099"

}

我们可以看到，demo_v1 索引中的数据：

分片数(number_of_shards)： 2

副本(number_of_replicas)： 0

别名(aliases)：demo

最大结果窗口(max_result_window)：100000

这些都是我们在demo_template模板中设置的，在自动创建索引时，根据索引模板的index_patterns值，只要我们的索引名称是以“demo”为前缀，都会根据该模板生成索引。因此，无论是demo_v1,还是demo_v2，只要是以“demo”为前缀，直接创建文档，如果不存在索引，ES也会自动给我们创建以“demo_template”为模板的索引。实现索引拆分最关键的点，就在于索引模板。

同样，我们通过创建文档，来生成一个没有索引模板的索引进行对比。

查询demo

GET demo/_search

确定demo索引不存在

{

"error" : {

"root_cause" : [

{

"type" : "index_not_found_exception",

"reason" : "no such index",

"resource.type" : "index_or_alias",

"resource.id" : "demo",

"index_uuid" : "_na_",

"index" : "demo"

}

"type" : "index_not_found_exception",

"reason" : "no such index",

"resource.type" : "index_or_alias",

"resource.id" : "demo",

"index_uuid" : "_na_",

"index" : "demo"

"status" : 404

}

创建一条文档

POST demo/_doc

{

"id": 1,

"title": "这是一条数据"

}

创建成功

{

"_index" : "demo",

"_type" : "_doc",

"_id" : "PmXEIHUBwM4PCvJbG7Xw",

"_version" : 1,

"result" : "created",

"_shards" : {

"total" : 2,

"successful" : 1,

"failed" : 0

"_seq_no" : 0,

"_primary_term" : 1

}

查看数据

GET demo/_search

{

"took" : 1,

"timed_out" : false,

"_shards" : {

"total" : 2,

"successful" : 2,

"skipped" : 0,

"failed" : 0

"hits" : {

"total" : 1,

"max_score" : 1.0,

"hits" : [

{

"_index" : "demo",

"_type" : "_doc",

"_id" : "PmXEIHUBwM4PCvJbG7Xw",

"_score" : 1.0,

"_source" : {

"id" : 1,

"title" : "这是一条数据"

}

]

}

数据同步成功，索引也因此创建完成，我们来看看这个索引结构

GET demo

{

"demo" : {

"aliases" : { },

"mappings" : {

"_doc" : {

"properties" : {

"id" : {

"type" : "long"

"title" : {

"type" : "text",

"fields" : {

"keyword" : {

"type" : "keyword",

"ignore_above" : 256

}

"settings" : {

"index" : {

"number_of_shards" : "2",

"provided_name" : "demo",

"creation_date" : "1602572524390",

"number_of_replicas" : "1",

"uuid" : "p8kNddGzQzWOaz5xLcSWhA",

"version" : {

"created" : "6070099"

}

我们可以看到，demo索引中的数据：

分片数(number_of_shards)： 2

副本(number_of_replicas)： 1

别名(aliases)：无

最大结果窗口(max_result_window)：无

为了直观比较，请看下表：

有索引模板(demo_v1)

无索引模板(demo)

number_of_shards

number_of_replicas

aliases

demo

无

max_result_window

10w

无，默认是1w

上表可知，通过索引模板的创建的索引，有利于我们更好的掌控索引的结构。

通过demo演示，我们可以进一步的理解索引拆分的一个过程及其实现原理，重点在索引模板。

八、参考

Arnold Pei

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
eval ssei 是什么版_elasticsearch

Elasticsearch索引拆分方案[TOC]一、概况项目中，由于Elasticsearch单个索引数据量大，索引中部分数据不常用，在搜索和写入文档时，效率较低。为了减小单个索引的数据量，提升搜索和文档写入效率，将大索引根据一定的规则拆分为小的索引。拆分索引的关键点在于建立索引，文档同步，多索引搜索。建立索引的关键问题是索引的设置以及字段的属性设置，最常见的问题是，某个字段我们希望Elastic...
复制链接

扫一扫