2024年最全使用es必须要知道的一些知识点：索引篇_es创建索引(1)，大数据开发开发基础入门

chatGPT_gaga

于 2024-05-14 06:32:19 发布

阅读量1k

点赞数 30

分类专栏：程序员文章标签：大数据面试学习

本文链接：https://blog.csdn.net/m0_73143885/article/details/138833476

版权

程序员专栏收录该内容

125 篇文章 0 订阅

订阅专栏

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

在Elasticsearch（ES）中，index操作和create操作是用于创建新文档的两种不同方式。下面是它们的区别：

Index操作：
- Index操作用于在指定的索引中创建新的文档。如果指定的索引不存在，Elasticsearch将自动创建该索引。
- 如果执行index操作时指定的文档ID已经存在，则会更新该文档。
- 如果没有指定文档ID，Elasticsearch会自动生成一个唯一的ID，并将其分配给新创建的文档。
- Index操作是幂等的，即多次执行相同的index操作不会创建重复的文档，而是更新现有的文档。
Create操作：
- Create操作也用于在指定的索引中创建新的文档。但是，与index操作不同，如果指定的文档ID已经存在，则会引发一个错误。
- 如果没有指定文档ID，Elasticsearch会自动生成一个唯一的ID，并将其分配给新创建的文档。
- Create操作是非幂等的，即多次执行相同的create操作会导致错误。

总结：
Index操作用于创建或更新文档，如果文档ID已存在，则更新该文档；而Create操作只能用于创建新文档，如果文档ID已存在，则会引发错误。

二、经验篇

使用动态模板（Dynamic Template）优化索引

在业务系统中，字符串类型的数据，一般被用作精确查询或模糊查询。

当Elasticsearch被用作大数据量存储中心时，尤其是从Mysql迁移数据进来的情况下，我们很多场景下其实无需对字符串分词，也就是说字符串存储不使用es中的text，我们可以设置属性的类型为keyword。

但是，如果数据结构中的字符串非常多，有没有一种方式，可以使字符串属性自动用keyword方式存储呢？这时候我们可以使用索引动态模板（Dynamic Template）来实现。

动态模板（Dynamic Template）

无需分词的情况下，可以在Elasticsearch动态模板中，设置所有字符串数据都用"type": "keyword"来存储。举个例子，我们可以创建一个适当的动态模板规则。

以下是一个示例：

{
  "mappings": {
    "dynamic\_templates": [
      {
        "strings\_as\_keyword": {
          "match\_mapping\_type": "string",
          "mapping": {
            "type": "keyword"
          }
        }
      }
    ]
  }
}

这个动态模板规则将会把所有字符串字段映射为keyword类型。

动态模板常见设置：https://blog.csdn.net/liuwenqiang1314/article/details/125861920

使用动态模板时，如何防止子属性溢出

使用动态模板时，class属性要i禁用Map结构。原因：es索引key数量默认不能超过1000。
es数据底层存储的时候是按照json结构的，Map结构的数据存储到es，key是不固定的，随着数据量的扩张，key的数量可能超过1000，此时es会抛出异常。

illegal_argument_exception, reason=Limit of total fields [1000] in index [fcs_biz_bill_body_dev] has been exceeded

这个错误是由于Elasticsearch索引中的字段数超过了默认限制（1000个字段）所导致的。当我们尝试在一个索引中创建太多字段时，Elasticsearch会抛出这个异常。
解决此问题有两种方法：

增加索引的index.mapping.total_fields.limit设置值。我们可以通过更新索引设置来增加允许的最大字段数。例如，将其更改为2000：

PUT /fcs_biz_bill_body_dev/_settings
{
  "index": {
    "mapping": {
      "total\_fields": {
        "limit": 2000
      }
    }
  }
}

请注意，在生产环境中谨慎使用这种方法，因为大量字段可能会影响性能和资源利用率。

检查并优化数据模型：如果不需要那么多字段，请考虑重新设计或优化数据模型以减少不必要的字段。这可能包括删除未使用或重复的属性、合并相关属性等。
2. 对不需要索引的object属性禁用动态模板
在Elasticsearch中，动态模板可以用来控制新字段的映射。要实现遇到Map结构时不创建属性，你可以使用以下设置：

通过正则匹配相应的属性
设置mapping.enabled: false

这是一个示例配置：

{
  "mappings": {
    "\_doc": {
      "dynamic\_templates": [
        {
          "not\_analyzed\_map": {
            "match\_pattern": "regex",
            "path\_match": "^map\_.\*$",
            "mapping": {
              "enabled": false
            }
          }
        }
      ]
    }
  }
}

批量处理器（Bulk Processor）不建议处理多个索引模板的请求

一个批量处理器（Bulk Processor）不建议处理多个索引模板的请求，尤其是当这些索引模板的分区规则不一致时，主要是因为以下原因：

分区规则不一致：不同的索引模板可能具有不同的分区规则，例如按时间分区、按地理位置分区等。当批量处理器处理多个索引模板的请求时，如果分区规则不一致，会导致数据在不同的分区之间不均匀分布，影响查询性能和数据的存储效率。
索引设置不同：每个索引模板可能具有不同的索引设置，如副本数量、刷新间隔、分片数量等。当批量处理器处理多个索引模板时，这些不同的设置可能会导致性能差异或资源的不均衡分配。
管理复杂性：处理多个索引模板的请求会增加管理的复杂性，包括索引模板的创建、更新和删除等操作。同时维护多个不同设置和规则的索引模板也会增加配置和维护的工作量。

为了确保良好的性能和简化管理，建议将具有相同分区规则和设置的索引请求分组处理。这样可以确保数据在相同的分区规则下均匀分布，并且能够更有效地管理索引的创建、更新和删除等操作。

三、性能调优

涉及性能的时候，批量的大小很关键。如果你的批量太大，它们会占用过多的内存。如果它们太小，网络开销又会很大。最佳的平衡点，取决于文档的大小——如果文档很大，每个批量中就少放几篇；如果文档很小，就多放几篇——以及集群的能力。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！**

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

chatGPT_gaga

关注

30
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
2024年最全使用es必须要知道的一些知识点：索引篇_es创建索引(1)，大数据开发开发基础入门

在Elasticsearch（ES）中，index操作和create操作是用于创建新文档的两种不同方式。下面是它们的区别：总结：Index操作用于创建或更新文档，如果文档ID已存在，则更新该文档；而Create操作只能用于创建新文档，如果文档ID已存在，则会引发错误。
复制链接

扫一扫